发明名称 基于可视程度的Web对象检索方法
摘要 本发明公开了一种基于可视程度的Web对象检索方法。对具有空间属性的海量Web对象建立IR树索引;用积分式可视性度量方法符合人体视觉感知特征;设计环绕遮挡图结构作为Web对象及IR树节点对象的可视性计算引擎;针对用户可视Web检索需求设计查询匹配度度量函数,融合Web对象相对于用户位置的可视性与相对于查询关键词的语义相关性;利用IR树索引,对提出的环绕遮挡图结构以及查询匹配度度量函数,采用增量式的方法获得K个与用户查询匹配度最高的Web对象。本发明充分利用了IR树索引结构,无缝融合Web对象的空间属性与文本属性,基于积分式可视性度量的环绕遮挡图结构保证了查询的高效性。
申请公布号 CN102156754B 申请公布日期 2012.10.03
申请号 CN201110113865.5 申请日期 2011.05.04
申请人 浙江大学 发明人 陈珂;寿黎但;胡天磊;陈刚;张超
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州求是专利事务所有限公司 33200 代理人 林怀禹
主权项 一种基于可视程度的Web对象检索方法,其特征在于采用以下步骤实现:1)对具有空间属性的海量Web对象建立IR树索引;2)提出一种积分式可视性度量方法,该可视性度量方法符合人体视觉感知特征;3)基于步骤2)所提出的可视性度量方法,设计环绕遮挡图结构作为Web对象及IR树节点对象的可视性计算引擎;4)基于步骤2)中的可视性度量方法,针对用户可视Web检索需求设计查询匹配度度量函数,融合Web对象相对于用户位置的可视性与相对于查询关键词的语义相关性;5)利用IR树索引,结合步骤3)所提出的环绕遮挡图结构以及步骤4)所提出的查询匹配度度量函数,采用增量式的方法获得K个与用户查询匹配度最高的Web对象;步骤1)中所述的建立IR树索引,需要先对Web对象的空间属性和语义属性建立理论模型,用最小包围矩形表示Web对象的空间位置与几何形状,用文本表示Web对象的语义内容,依据理论模型对海量Web对象建立IR树索引,这种树索引结构无缝融合Web对象的空间信息与语义信息,并且对于后期Web对象的插入、删除、更新操作IR树索引都提供了处理机制;步骤2)中所述的积分式可视性度量方法,空间线段对象看做由无穷多个点对象组成,每一点的可视性都与该点到查询点的距离成反比,那么线段对象的可视性就是无穷多个点对象的可视度叠加,用定积分式表达,而对于空间属性被建模为平面矩形的Web对象,平面矩形相对于查询点最多具有一条或两条能见边,即不考虑查询点落于矩形内部的特殊情况,从而Web对象的可视性即为平面矩形能见边的可视性之和;步骤3)中所述的环绕遮挡图结构的性质与构建方法如下:4.1)环绕遮挡图通过考虑Web对象的相互遮挡,并结合用户查询位置与步骤2)所提出的可视性度量方法而构建,其成员全部来自于原始Web对象集;4.2)环绕遮挡图中完全覆盖了查询位置周围[0,2π]的张角范围,且在以查询点为坐标原点,与X轴正方向成任意角度的方向上,环绕遮挡图所对应的Web对象将是该方向上整个Web对象集合中的最近可视对象;4.3)环绕遮挡图之外的Web对象可视性为零,即对于任一不属于环绕遮挡图的Web对象,必定被环绕遮挡图的一个成员完全遮挡或多个成员联合完全遮挡;4.4)环绕遮挡图通过最好优先方法构建,距离查询点比较近的Web对象被优先获取作为初始遮挡体,后续获取得到的Web对象与当前环绕遮挡图的成员作比较,如果它们具有共同角度 区间,则在共同角度区间中选取距离查询点更近的Web对象作为新的环绕遮挡图成员并计算可视性,重复这一过程直至环绕遮挡图完全覆盖查询点周围[0,2π]的角度区间;步骤4)中所述的匹配度度量函数用以衡量Web对象与用户查询之间的匹配程度,以线性加权方式融合Web对象的可视性和语义相关性,其中可视性采用步骤2)所述的积分式可视性度量方法,语义相关性采用信息挖掘领域的TF‑IDF模型与向量余弦距离度量,加权函数中的权重系数根据实际应用场景与用户需求方便设定;步骤5)中所述的K个Web对象的增量式获取具体实施方法如下:6.1)维护一个存放IR树索引节点的优先队列以及一个结果列表,其中优先队列以步骤4)所述的匹配程度为键值,按照键值递减的顺序组织IR树各个节点;6.2)将IR树索引的根节点放入优先队列,循环访问优先队列中位于队首,即匹配度最高的元素;6.3)若优先队列队首元素为IR树索引中间节点,则利用环绕遮挡图与该节点所指向的倒排文件索引为其子节点分别计算可视性与语义相关度,并进行线性加权后作为各个子节点的查询匹配度与子节点一起压入优先队列;6.4)若优先队列队首元素为Web对象,则说明当前Web对象的匹配度比优先队列中任意其它Web对象或IR树索引节点的匹配度都要高,于是将此对象加入到查询结果集中;6.5)当查询结果集的大小达到K或者优先队列已为空时,获取过程结束,返回最终的查询结果集。
地址 310027 浙江省杭州市西湖区浙大路38号