发明名称 针对结构化网页的自动模板信息定位方法
摘要 本发明公开了一种针对结构化网页的自动模板信息定位方法。现有的定位方法匹配不够准确,对合理内容的判断也非常困难。为解决上述问题,本发明通过正则表达式定位属性关键字,确定属性关键字到属性值的距离,最终通过属性关键字以及属性关键字到属性值的距离定位全部属性值。本发明能准确高效的定位出想要搜索的信息,适用于各种网上信息搜索引擎。
申请公布号 CN101178708A 申请公布日期 2008.05.14
申请号 CN200610137855.4 申请日期 2006.11.07
申请人 北京酷讯科技有限公司 发明人 陈华
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京中博世达专利商标代理有限公司 代理人 张岱
主权项 1.一种针对结构化网页的自动模板信息定位方法,其特征在于:通过正则表达式定位属性关键字,确定属性关键字到属性值的距离,最终通过属性关键字以及属性关键字到属性值的距离定位全部属性值。
地址 100084北京市海淀区中关村财智国际大厦C座2008