发明名称 | 基于信息抽取技术的搜索引擎 | ||
摘要 | 本发明涉及一种基于信息抽取技术的搜索引擎,利用机器学的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学,调整规则数目和抽象程度,使其满足精度要求,然后基于学提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。本发明有益的效果是:将信息抽取技术与搜索引擎技术有机地结合在一起,是一个非常有效、准确的信息获取工具,它能够较大范围地提高人们的工作效率。 | ||
申请公布号 | CN1410918A | 申请公布日期 | 2003.04.16 |
申请号 | CN02111893.0 | 申请日期 | 2002.05.31 |
申请人 | 浙江大学 | 发明人 | 吴朝晖;徐杰锋;陆伟 |
分类号 | G06F17/40 | 主分类号 | G06F17/40 |
代理机构 | 杭州九洲专利事务所有限公司 | 代理人 | 陈继亮 |
主权项 | 1、一种基于信息抽取技术的搜索引擎,其特征是:利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。 | ||
地址 | 310027浙江省杭州市玉古路20号浙大计算机系 |