发明名称 基于信息抽取技术的搜索引擎
摘要 本发明涉及一种基于信息抽取技术的搜索引擎,利用机器学的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学,调整规则数目和抽象程度,使其满足精度要求,然后基于学提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。本发明有益的效果是:将信息抽取技术与搜索引擎技术有机地结合在一起,是一个非常有效、准确的信息获取工具,它能够较大范围地提高人们的工作效率。
申请公布号 CN1410918A 申请公布日期 2003.04.16
申请号 CN02111893.0 申请日期 2002.05.31
申请人 浙江大学 发明人 吴朝晖;徐杰锋;陆伟
分类号 G06F17/40 主分类号 G06F17/40
代理机构 杭州九洲专利事务所有限公司 代理人 陈继亮
主权项 1、一种基于信息抽取技术的搜索引擎,其特征是:利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则;应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量地获取,并从半自由的HTML文本中获取结构化的信息。
地址 310027浙江省杭州市玉古路20号浙大计算机系