发明名称 基于视觉特征的页面查询接口抽取方法
摘要 本发明公开了一种基于视觉特征的页面查询接口抽取方法,首先获取一个包含查询接口的页面文档;采用基于视觉的文档分割方法,对上述页面文档构建视觉块树;定位查询接口区域;利用视觉特征识别标签块;再利用视觉特征完成控件块与标签块的分组,由此确定查询接口中的控件及其对应的属性标签,实现查询接口的自动抽取。本发明可以实现查询接口的自动抽取,为进行深层网页的集成搜索提供了基础;实验证明,本发明的基于视觉特征的查询接口自动抽取方法是可行的,并且具有较高的精度;将本发明应用于深层网页的集成搜索,可以提高搜索的准确度,从而较大范围地提高人们的工作效率。
申请公布号 CN100447793C 申请公布日期 2008.12.31
申请号 CN200710019543.8 申请日期 2007.01.10
申请人 苏州大学 发明人 崔志明;赵朋朋;方巍
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 苏州创元专利商标事务所有限公司 代理人 陶海锋
主权项 1.一种基于视觉特征的页面查询接口抽取方法,包括下列步骤:(1)获取一个包含查询接口的页面文档,所述页面文档为HTML格式文档;(2)采用基于视觉的文档分割方法,对上述页面文档构建视觉块树;(3)定位查询接口区域;(4)识别标签块,包括,4-1)将查询接口区域中的文本块排成一个列表,取第一个文本块归入第一个类;4-2)取下一个文本块,计算其与已存在的类之间的相似度,两个文本块之间的相似度公式为,Sim(B1,B2)=w1×wfs(B1,B2)+w2×was(B1,B2)+w3×wcs(B1,B2)+w4×wss(B1,B2)式中,wfs(B1,B2)代表B1与B2字体、背景色是否相同,相同为1,否则为0,was(B1,B2)代表B1与B2文本是否左对齐或者右对齐,对齐为1,否则为0,wcs(B1,B2)代表B1与B2是否同时出现或不出现冒号,同时为1,否则为0,wss(B1,B2)代表B1和B2文本是否在同一行,不在同一行为1,否则为0,w1为3.5~4.5,w2为1.5~2.5,w3为1.5~2.5,w4为1.5~2.5,且w1+w2+w3+w4=10;文本块与类之间的相似度为该文本块与该类中所有文本块的相似度的平均值,若文本块与某一个类的相似度大于相似度阈值,则将该文本块归入该类;若其与任一个已存在的类的相似度均不大于相似度阈值,则新建一个类,并把该文本块归入该新建的类,所述相似度阈值为6;4-3)重复步骤4-2),直至完成文本块的分类;4-4)根据显示特征,确定获得的文本块类中符合度最高的类为标签类;所述显示特征包括,标签通常不在同一行中,同一行中出现多个文本块,第一块为标签;标签通常左对齐或右对齐;标签的字体大小、颜色、背景色相同;(5)控件块与标签块的分组,5-1)建立控件块列表,删除其中的submit,reset,image控件块;5-2)对每一控件块与步骤(4)中获得的标签块进行比较,将显示于同一行的控件块与标签块归为一组;5-3)根据显示特征,将剩余的控件块和其上方最毗邻的标签块归为一组,完成控件块与标签块的分组;由此确定查询接口中的控件及其对应的属性标签,实现查询接口的自动抽取。
地址 215006江苏省苏州市沧浪区十梓街1号