发明名称 一种基于语句相似度的话题观点聚类方法
摘要 本发明公开了一种基于语句相似度的话题观点聚类方法。本发明可以对互联网中围绕某一话题的主要观点进行聚类,首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句。本发明的优势在于能够确保聚类结果更加多样化和精细化,让用户能更清晰地了解该话题的各方观点及其细节,有效避免观点聚类及描述的模糊性和片面性。
申请公布号 CN106372208A 申请公布日期 2017.02.01
申请号 CN201610801675.5 申请日期 2016.09.05
申请人 东南大学 发明人 杨鹏;袁志伟;顾梁;赵丹丹
分类号 G06F17/30(2006.01)I;G06K9/62(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京苏高专利商标事务所(普通合伙) 32204 代理人 李玉平
主权项 一种基于语句相似度的话题观点聚类方法,其特征在于:首先利用人机结合的方式构建针对话题的观点词库,然后抽取话题的所有观点语句并利用观点语句的相似度进行观点聚类,最后根据语句平均相似度为每一观点类选取代表观点语句;具体可以分为三个步骤:步骤1,构建观点词库;从互联网中围绕待聚类话题的文本中筛选该话题的种子观点词,之后利用同义词扩展规则对种子观点词进行扩展,最终形成针对该话题的观点词库;步骤2,话题观点聚类;抽取该话题所有相关文本中的观点语句,利用语句相似度计算公式计算这些观点语句之间的相似度,再利用自底向上的层次聚类方法完成话题观点聚类;步骤3,抽取观点代表语句;对于聚类所得的该话题每一观点类,从隶属该观点类的所有观点语句中,按照语句平均相似度最高的原则,选取其中最具代表性的语句作为该观点类的代表观点语句。
地址 210096 江苏省南京市玄武区四牌楼2号