主权项 |
1.一种基于视觉特征的页面查询接口抽取方法,包括下列步骤:(1)获取一个包含查询接口的页面文档,所述页面文档为HTML格式文档;(2)采用基于视觉的文档分割方法,对上述页面文档构建视觉块树;(3)定位查询接口区域;(4)识别标签块,包括,4-1)将查询接口区域中的文本块排成一个列表,取第一个文本块归入第一个类;4-2)取下一个文本块,计算其与已存在的类之间的相似度,两个文本块之间的相似度公式为,Sim(B1,B2)=w1×wfs(B1,B2)+w2×was(B1,B2)+w3×wcs(B1,B2)+w4×wss(B1,B2)式中,wfs(B1,B2)代表B1与B2字体、背景色是否相同,相同为1,否则为0,was(B1,B2)代表B1与B2文本是否左对齐或者右对齐,对齐为1,否则为0,wcs(B1,B2)代表B1与B2是否同时出现或不出现冒号,同时为1,否则为0,wss(B1,B2)代表B1和B2文本是否在同一行,不在同一行为1,否则为0,w1为3.5~4.5,w2为1.5~2.5,w3为1.5~2.5,w4为1.5~2.5,且w1+w2+w3+w4=10;文本块与类之间的相似度为该文本块与该类中所有文本块的相似度的平均值,若文本块与某一个类的相似度大于相似度阈值,则将该文本块归入该类;若其与任一个已存在的类的相似度均不大于相似度阈值,则新建一个类,并把该文本块归入该新建的类,所述相似度阈值为6;4-3)重复步骤4-2),直至完成文本块的分类;4-4)根据显示特征,确定获得的文本块类中符合度最高的类为标签类;所述显示特征包括,标签通常不在同一行中,同一行中出现多个文本块,第一块为标签;标签通常左对齐或右对齐;标签的字体大小、颜色、背景色相同;(5)控件块与标签块的分组,5-1)建立控件块列表,删除其中的submit,reset,image控件块;5-2)对每一控件块与步骤(4)中获得的标签块进行比较,将显示于同一行的控件块与标签块归为一组;5-3)根据显示特征,将剩余的控件块和其上方最毗邻的标签块归为一组,完成控件块与标签块的分组;由此确定查询接口中的控件及其对应的属性标签,实现查询接口的自动抽取。 |