发明名称 针对结构化网页的自动模板信息定位方法
摘要 本发明公开了一种针对结构化网页的自动模板信息定位方法。现有的定位方法匹配不够准确,对合理内容的判断也非常困难。为解决上述问题,本发明通过正则表达式定位属性关键字,确定属性关键字到属性值的距离,最终通过属性关键字以及属性关键字到属性值的距离定位全部属性值。本发明能准确高效的定位出想要搜索的信息,适用于各种网上信息搜索引擎。
申请公布号 CN100562872C 申请公布日期 2009.11.25
申请号 CN200610137855.4 申请日期 2006.11.07
申请人 北京酷讯科技有限公司 发明人 陈华
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京中博世达专利商标代理有限公司 代理人 张 岱
主权项 1、一种针对结构化网页的自动模板信息定位方法,其特征在于:具体包括以下步骤:(1B)通过正则表达式定位一个属性的属性关键字位置,并搜索多个结构化网页中与所述一个属性的属性关键字位置距离最近的出现内容变化的区域;(2B)确定属性关键字和与所述一个属性的属性关键字位置距离最近的出现内容变化的区域之间的距离;(3B)通过属性关键字以及属性关键字和与所述一个属性的属性关键字位置距离最近的出现内容变化的区域之间的距离,确定与该属性关键字对应的全部属性值的位置。
地址 100084北京市海淀区中关村财智国际大厦C座2008