发明名称 |
一种选取文本分类训练集的方法及装置 |
摘要 |
本发明公开了一种选取文本分类训练集的方法及装置,涉及计算机技术领域,解决了现有的文本训练集分类方式速度慢、误差大、效率低的问题。本发明主要的技术方案为:利用余弦相似性按照预定聚类算法,将训练集中的文本进行相似聚类得到多个文本簇;在所述多个文本簇中分别提取一个代表文本,所述代表文本与其所在簇中的其他文本具有共同的相似特征;根据预定的关键词确定所述代表文本的文本分类标签;将所述代表文本所在文本簇中的所有文本全部加入到所述文本分类标签对应的文本训练集中。本发明主要用于对文本训练集的分类选取。 |
申请公布号 |
CN106557485A |
申请公布日期 |
2017.04.05 |
申请号 |
CN201510623563.0 |
申请日期 |
2015.09.25 |
申请人 |
北京国双科技有限公司 |
发明人 |
林漫鹏 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鼎佳达知识产权代理事务所(普通合伙) 11348 |
代理人 |
王伟锋;刘铁生 |
主权项 |
一种选取文本分类训练集的方法,其特征在于,所述方法包括:利用余弦相似性按照预定聚类算法,将训练集中的文本进行相似聚类得到多个文本簇;在所述多个文本簇中分别提取一个代表文本,所述代表文本与其所在簇中的其他文本具有共同的相似特征;根据预定的关键词确定所述代表文本的文本分类标签;将所述代表文本所在文本簇中的所有文本全部加入到所述文本分类标签对应的文本训练集中。 |
地址 |
100086 北京市海淀区双榆树小区知春路76号翠宫饭店8层A间 |