发明名称 一种快速的短文本双聚类方法
摘要 一种快速的短文本双聚类方法,包括以下步骤:1)短文本干扰项的预处理,在无关语词典和词类词典的支持下,对短文本进行快速进行的无关语和词类识别和处理识别;2)计算预处理后的两个短文本相似度,形成在短文本相似度稀疏矩阵;3)在短文本相似度稀疏矩阵上进行短文本一级聚类,根据短文本相似度的结算结果,将相似的短文本划分成一个一个的簇;4)在一级聚类结果基础上进行短文本二级聚类。
申请公布号 CN103177125A 申请公布日期 2013.06.26
申请号 CN201310133656.6 申请日期 2013.04.17
申请人 镇江诺尼基智能技术有限公司 发明人 符建辉;刘亮亮;王石;王卫民
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 一种快速的短文本双聚类方法,其特征在于:包括以下步骤:步骤1)短文本干扰项的预处理,在无关语词典和词类词典的支持下,对短文本进行快速进行的无关语和词类识别和处理识别;步骤2)计算预处理后的两个短文本相似度,形成在短文本相似度稀疏矩阵;步骤3)在短文本相似度稀疏矩阵上进行短文本一级聚类,根据短文本相似度的结算结果,将相似的短文本划分成一个一个的簇;步骤4)在一级聚类结果基础上进行短文本二级聚类。
地址 212009 江苏省镇江市丁卯经十二路468号双子研发楼北楼18楼
您可能感兴趣的专利