发明名称 一种词关系挖掘方法和装置
摘要 本发明公开了一种词关系挖掘方法和装置,属于计算机、互联网领域。所述方法包括:获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频;根据所述候选关系、所述频度及所述词频获取互信息的统计值和对数似然比的统计值;根据所述互信息的统计值和所述对数似然比的统计值获取可信度归一值;根据所述可信度归一值进行排序,将符合预设阈值的候选关系作为词关系输出。所述装置包括:第一获取模块、第二获取模块、第三获取模块、输出模块,本发明实施例提供的方案提高了挖掘的词关系的正确率,提高了用户的使用体验。
申请公布号 CN102129427B 申请公布日期 2013.06.05
申请号 CN201010003423.0 申请日期 2010.01.13
申请人 腾讯科技(深圳)有限公司 发明人 田国刚;贾自艳
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京三高永信知识产权代理有限责任公司 11138 代理人 何文彬
主权项 一种词关系挖掘方法,其特征在于,所述方法包括:获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频;根据所述候选关系、所述频度及所述词频获取互信息的统计值和对数似然比的统计值;根据所述互信息的统计值和所述对数似然比的统计值获取可信度归一值;根据所述可信度归一值进行排序,将符合预设阈值的候选关系作为词关系输出;其中,所述获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频,包括:对语料库中的每一个文档的每一个句子进行分词处理,获取词条集合;将所述词条集合中的词条进行配对,若两个词条不同,则配对成功,获取两个词条之间的候选关系;在语料库的所有文档中以句子为单位查找所述候选关系,将所述候选关系出现的次数作为所述候选关系的频度;在所述语料库的所有文档中查找所述词条,将所述词条出现的次数作为所述词条的词频;或者,所述获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频,包括:对语料库中的每一个问答文档的标题和答案分别进行分词处理,获取标题词条集合和答案词条集合;将所述标题词条集合中的标题词条与答案词条集合中的答案词条进行词条间的配对,若两个词条不同,则配对成功,获取两个词条之间的候选关系;在语料库中所有的问答文档中以标题词条和所述标题词条相应的答案词条为单位查找所述候选关系,将所述候选关系出现的次数作为所述候选关系的频度;在所述语料库中所有的问答文档的标题中查找所述标题词条,将所述标题词条出现的次数作为所述标题词条的词频;在所述语料库中所有的问答文档的答案中查找所述答案词条,将所述答案 词条出现的次数作为所述答案词条的词频;其中,所述对语料库中的每一个问答文档的标题和答案分别进行分词处理,获取标题词条集合和答案词条集合的步骤之后,还包括:对所述标题词条集合和所述答案词条集合中的词条进行过滤,分别获取过滤后的所述标题词条集合和所述答案词条集合。
地址 518000 广东省深圳市福田区赛格科技园2栋东403室
您可能感兴趣的专利