发明名称 |
基于疑问词扩展的信息检索方法 |
摘要 |
本发明涉及一种信息检索方法,尤其是涉及一种基于疑问词扩展的软件信息检索方法。包括:统计步骤:对问答网站已有的问题答案对进行分类,然后提取各类型答案对的特征,再利用机器学得出各类型答案对间的区分性特征;分析步骤:利用自然语言对检索问题进行处理以得到疑问词,再将检索向量与区分性特征合并组成新的检索向量;检索步骤:利用检索向量在软件知识库中进行检索。因此,本发明具有如下优点:1.能够利用问答中疑问词和答案之间的联系提高软件信息检索精度;2.能够利用问答中疑问词和答案之间的联系来对检索结果进行过滤和重排序,加快用户筛选速率。 |
申请公布号 |
CN103902733B |
申请公布日期 |
2017.02.01 |
申请号 |
CN201410156424.7 |
申请日期 |
2014.04.18 |
申请人 |
北京大学 |
发明人 |
邹艳珍;叶挺;陈秀招 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京天奇智新知识产权代理有限公司 11340 |
代理人 |
王海洋 |
主权项 |
一种基于疑问词扩展的信息检索方法,其特征在于,包括:统计步骤:对问答网站已有的问题答案对进行分类,然后提取各类型答案对的特征,再利用机器学习得出各类型答案对间的区分性特征;分析步骤:利用自然语言对检索问题进行处理以得到疑问词,再将检索向量与统计步骤中得到的区分性特征合并组成新的检索向量;检索步骤:利用分析步骤中得到的检索向量在软件知识库中进行检索,得到候选结果列表;所述检索步骤中在得到候选结果列表后,还包括对候选结果进行过滤和重排序的步骤,该步骤进一步包括以下子步骤:步骤5.1:用检索向量在软件知识库中进行检索,得到候选结果列表;步骤5.2:分析候选结果列表中的每个备选答案特征,并将备选答案特征与非区分性特征进行模式匹配,按照匹配度排序,并返回最终结果。 |
地址 |
100080 北京市海淀区颐和园路5号 |