发明名称 |
基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统 |
摘要 |
基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统,涉及信息检索技术领域,具体涉及语义检索技术。本发明解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明首先根据待检索的语义类信息过滤查询日志提取伪种子属性;同时,根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图;最后采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重排序,抽取前Y个候选属性作为待检索的语义类对应的语义属性。 |
申请公布号 |
CN102663123A |
申请公布日期 |
2012.09.12 |
申请号 |
CN201210118461.X |
申请日期 |
2012.04.20 |
申请人 |
哈尔滨工业大学 |
发明人 |
杨沐昀;孙叔琦;李生;赵铁军 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
哈尔滨市松花江专利商标事务所 23109 |
代理人 |
张宏威 |
主权项 |
基于伪种子属性和随机漫步排序的语义属性自动抽取方法,其特征在于该方法的过程为:首先,根据待检索的语义类信息过滤查询日志,提取伪种子属性,获得伪种子属性集合S,该伪种子属性集合中的伪种子属性的权重作为随机漫步算法的初始状态参数;同时,根据待检索的语义类遍历检索日志,生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文,构建属性‑上下文图;然后,根据伪种子属性以及属性上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,然后根据所述权重对所有候选属性进行排序,然后抽取前Y个候选属性作为待检索的语义类对应的语义属性,所述Y为正整数。 |
地址 |
150001 黑龙江省哈尔滨市南岗区西大直街92号 |