发明名称 |
一种句子相似度的计算方法及系统 |
摘要 |
本发明提供了一种句子相似度的计算方法及系统,通过利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;对待计算相似度的两个句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子每个分词与第二句子各个分词之间的相似度;获取分词之间的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;将两个句子中分词的贡献值相加,得到句子之间的相似度。本发明所述方法及系统利用word2vec计算词语的语义相似度,通过大量语料库自动训练,为更为准确的进行信息检索、文档分类或者回答系统提供方便。 |
申请公布号 |
CN106021223A |
申请公布日期 |
2016.10.12 |
申请号 |
CN201610305004.X |
申请日期 |
2016.05.09 |
申请人 |
TCL集团股份有限公司 |
发明人 |
吴成龙 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
深圳市君胜知识产权代理事务所 44268 |
代理人 |
王永文;刘文求 |
主权项 |
一种句子相似度的计算方法,其特征在于,包括以下步骤:步骤A、利用word2vec算法,对预先建立的语料库进行训练,得到语料库中所有词语的向量;步骤B、对待计算相似度的第一句子和第二句子进行智能分词,并从语料库中查找出所述第一句子和第二句子中各个分词所对应的向量,依次计算第一句子中每个分词与第二句子各个分词之间的相似度;步骤C、获取第一句子和第二句子中分词的相似度超过预定阈值的两组分词集合,并根据所述每组分词位于句子位置的偏移量,计算每组分词在整个句子中相似度的贡献值;步骤D、将第一句子和第二句子中分词的贡献值相加后取平均,得到所述第一句子与第二句子之间的相似度。 |
地址 |
516006 广东省惠州市仲恺高新技术开发区十九号小区 |