发明名称 基于偏好的智能检索方法及系统
摘要 本发明涉及数据检索领域,公开了一种基于偏好的智能检索方法及系统。所述方法包括步骤:基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果。本发明利用主题标引技术确定数据资源的主题分布,使用基于主题的查询扩展和相关反馈等技术构建更能代表用户需求的检索向量,向用户提供更符合其潜在需求的检索结果。
申请公布号 CN103593425B 申请公布日期 2015.01.07
申请号 CN201310549069.5 申请日期 2013.11.08
申请人 南方电网科学研究院有限责任公司;武汉大学 发明人 李鹏;周育忠;王庆红;龚婷;陈传夫;王平;冉从敬;吴江
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京万慧达知识产权代理有限公司 11111 代理人 张金芝;杨颖
主权项 一种基于偏好的智能检索方法,其特征在于,所述方法包括步骤:S1,基于数据主题分类、用户特征及操作日志,建立用户主题偏好模型;其中,根据所述主题分类建立主题向量空间、根据所述用户特征确定用户的预定义主题偏好向量、根据所述操作日志确定用户的历史主题偏好向量,将所述预定义主题偏好向量和所述历史主题偏好向量进行加权,得到所述用户主题偏好模型;S2,利用用户主题偏好模型及用户检索输入,进行查询扩展获得初次检索结果;其中,所述进行查询扩展包括:计算所述用户检索输入中的检索词对应数据集合中各词项的概率分布,计算所述用户主题偏好模型的向量空间中各主题词对应数据集合中各词项的概率分布,衡量上述两种概率分布的相互差异,选择概率分布差异较小的主题词,将其以一定权重加入检索向量中;S3,利用用户主题偏好模型和数据在各个主题上的分布情况,进行数据的主题偏好打分,对初次检索结果进行基于主题偏好的个性化检索排序;其中,所述初次检索结果中文档的排序得分为:G<sub>sort</sub>=β<sub>1</sub>·G<sub>query</sub>+β<sub>2</sub>·sim(V,W)+β<sub>3</sub>·G<sub>factor</sub>;G<sub>query</sub>是LUCENE返回的一个基于一个具体用户查询得出的分值,β<sub>1</sub>、β<sub>2</sub>和β<sub>3</sub>是各分值对应的权重,G<sub>factor</sub>是加权后的文档质量评分,sim(V,W)是用户的主题偏好向量W和每篇文档的主题分布向量V的向量相似度,有<img file="FDA0000602883870000011.GIF" wi="683" he="285" />n为向量W、V的维度,v<sub>k</sub>、w<sub>k</sub>分别表示向量V、W的第k个元素;随后按照所述排序得分对所述初次检索结果中的各结果进行排序;S4,利用相关反馈和伪相关反馈综合模型对排序后的初次检索结果进行二次反馈检索获得最终检索结果;其中,利用所述相关反馈确定所述初次检索结果中的相关结果的向量集合;利用所述伪相关反馈确定所述初次检索结果中的不相关结果的向量集合;将所述用户主题偏好模型、所述相关结果的向量集合、所述不相关结果的向量集合与原始查询向量结合进行反馈查询。
地址 510062 广东省广州市越秀区东风东路水均岗6、8号粤电大厦西塔13-20楼