发明名称 |
多粒度短文本语义相似度比较方法及系统 |
摘要 |
一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。实施本发明提供的多粒度短文本语义相似度比较方法及系统与现有技术相比具有以下有益效果:能够由于短文本通常不遵循语法规则,并且长度短、没有足够的信息量来进行统计推断,机器很难在有限的语境中进行准确的推断,使得短文本的相似度对比存在较大的难度的问题,使得短文本相似度对比结果更为准确。 |
申请公布号 |
CN106569999A |
申请公布日期 |
2017.04.19 |
申请号 |
CN201610986272.2 |
申请日期 |
2016.11.09 |
申请人 |
武汉泰迪智慧科技有限公司 |
发明人 |
李成华;刘丽君 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
武汉智嘉联合知识产权代理事务所(普通合伙) 42231 |
代理人 |
黄君军 |
主权项 |
一种多粒度短文本语义相似度比较方法,其特征在于,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。 |
地址 |
430000 湖北省武汉市东湖新技术开发区高新大道999号A5北2-509 |