发明名称 | 网络搜索中基于多种规则的元数据自动抽取方法 | ||
摘要 | 本发明提供了一种网络搜索中基于多种规则的元数据自动抽取方法,属于网络搜索技术领域。该方法包括以下步骤:(1)对粗糙网页进行预处理,将所有网页归一为比较规范的格式;(2)对网页文档中包括所要提取的信息的网页内容进行初步定位;(3)按照指定的规则从预定位提取出的内容中提取元数据。本发明的方法首先将核心区域与大范围的无用信息区别开,而后再针对核心区域进行规则提取,使得提取准确度得到了大幅度提高。本发明的方法还能够按照多种规则对网页中的元数据进行抽取,多种规则根据给定的优先级判断匹配顺序,并按照两步抽取的方法进行精细化处理。 | ||
申请公布号 | CN101101600A | 申请公布日期 | 2008.01.09 |
申请号 | CN200710118590.8 | 申请日期 | 2007.07.10 |
申请人 | 北京大学 | 发明人 | 张铭;杨宇 |
分类号 | G06F17/30(2006.01) | 主分类号 | G06F17/30(2006.01) |
代理机构 | 北京君尚知识产权代理事务所 | 代理人 | 余功勋 |
主权项 | 1.网络搜索中基于多种规则的元数据自动抽取方法,其特征在于,包括以下步骤:(1)对粗糙网页进行预处理,将所有网页归一为比较规范的格式;(2)对网页文档中包括所要提取的信息的网页内容进行预定位;(3)按照指定的规则从预定位提取出的内容中提取元数据。 | ||
地址 | 100871北京市海淀区颐和园路5号 |