发明名称 对多个稿件进行聚类的方法和设备
摘要 本申请涉及对多个稿件进行聚类的方法和设备。该方法包括:根据新闻分类法的分类建立稿件分类空间;提取每个稿件中的关键词;根据提取的关键词的频率建立稿件坐标,从而将每个稿件映射为稿件分类空间中的点;计算稿件之间的距离,将距离小于距离阈值的稿件确定为一类。通过本申请的方法,能够对大量的新闻稿件自动进行聚类,节省了人力。
申请公布号 CN104346411A 申请公布日期 2015.02.11
申请号 CN201310346857.4 申请日期 2013.08.09
申请人 北大方正集团有限公司;北京北大方正电子有限公司 发明人 王露
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京英赛嘉华知识产权代理有限责任公司 11204 代理人 余朦;王艳春
主权项 一种对多个稿件进行聚类的方法,包括:根据新闻分类法的分类建立稿件分类空间;提取每个稿件中的关键词;根据提取的关键词的频率建立稿件坐标,从而将每个稿件映射为稿件分类空间中的点;计算所述多个稿件中的第一稿件所映射的点在稿件分类空间中分别与其他稿件所映射的点之间的距离,确定所计算出的距离中是否存在小于预定的第一距离阈值的值;以及如果存在,则将小于所述第一距离阈值的值所对应的稿件确定为和所述第一稿件属于相同的第一类。
地址 100871 北京市海淀区成府路298号中关村方正大厦5层