发明名称 |
一种快速的短文本双聚类方法 |
摘要 |
一种快速的短文本双聚类方法,包括以下步骤:1)短文本干扰项的预处理,在无关语词典和词类词典的支持下,对短文本进行快速进行的无关语和词类识别和处理识别;2)计算预处理后的两个短文本相似度,形成在短文本相似度稀疏矩阵;3)在短文本相似度稀疏矩阵上进行短文本一级聚类,根据短文本相似度的结算结果,将相似的短文本划分成一个一个的簇;4)在一级聚类结果基础上进行短文本二级聚类。 |
申请公布号 |
CN103177125A |
申请公布日期 |
2013.06.26 |
申请号 |
CN201310133656.6 |
申请日期 |
2013.04.17 |
申请人 |
镇江诺尼基智能技术有限公司 |
发明人 |
符建辉;刘亮亮;王石;王卫民 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
南京知识律师事务所 32207 |
代理人 |
汪旭东 |
主权项 |
一种快速的短文本双聚类方法,其特征在于:包括以下步骤:步骤1)短文本干扰项的预处理,在无关语词典和词类词典的支持下,对短文本进行快速进行的无关语和词类识别和处理识别;步骤2)计算预处理后的两个短文本相似度,形成在短文本相似度稀疏矩阵;步骤3)在短文本相似度稀疏矩阵上进行短文本一级聚类,根据短文本相似度的结算结果,将相似的短文本划分成一个一个的簇;步骤4)在一级聚类结果基础上进行短文本二级聚类。 |
地址 |
212009 江苏省镇江市丁卯经十二路468号双子研发楼北楼18楼 |