发明名称 网络搜索中基于多种规则的元数据自动抽取方法
摘要 本发明提供了一种网络搜索中基于多种规则的元数据自动抽取方法,属于网络搜索技术领域。该方法包括以下步骤:(1)对粗糙网页进行预处理,将所有网页归一为比较规范的格式;(2)对网页文档中包括所要提取的信息的网页内容进行初步定位;(3)按照指定的规则从预定位提取出的内容中提取元数据。本发明的方法首先将核心区域与大范围的无用信息区别开,而后再针对核心区域进行规则提取,使得提取准确度得到了大幅度提高。本发明的方法还能够按照多种规则对网页中的元数据进行抽取,多种规则根据给定的优先级判断匹配顺序,并按照两步抽取的方法进行精细化处理。
申请公布号 CN101101600A 申请公布日期 2008.01.09
申请号 CN200710118590.8 申请日期 2007.07.10
申请人 北京大学 发明人 张铭;杨宇
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京君尚知识产权代理事务所 代理人 余功勋
主权项 1.网络搜索中基于多种规则的元数据自动抽取方法,其特征在于,包括以下步骤:(1)对粗糙网页进行预处理,将所有网页归一为比较规范的格式;(2)对网页文档中包括所要提取的信息的网页内容进行预定位;(3)按照指定的规则从预定位提取出的内容中提取元数据。
地址 100871北京市海淀区颐和园路5号