发明名称 | 半监督分类方法及系统 | ||
摘要 | 本发明提出一种半监督分类方法及系统,其方法包括构建词典;采集当前时刻文本数据;计算当前时刻每一个文本数据相对于所述词典的特征向量;根据计算出的当前时刻文本数据相对于所述词典的特征向量,计算当前时刻各个文本数据之间的相似性;获取预存的前一时刻文本数据及前一时刻数据相对于所述词典的特征向量;根据当前时刻和前一时刻文本数据相对于所述词典的特征向量,计算前一时刻的各个文本数据与当前时刻各个文本数据之间的相似性;根据当前时刻文本数据之间的相似性以及前一时刻与当前时刻的文本数据之间的相似性,获取当前时刻未标注类别标签的文本数据的类别标签。本发明具有很高的分类的准确性。 | ||
申请公布号 | CN103268346A | 申请公布日期 | 2013.08.28 |
申请号 | CN201310202411.4 | 申请日期 | 2013.05.27 |
申请人 | 翁时锋;张长水;窦维蓓 | 发明人 | 张长水;宋扬磊;杨逸飞;窦维蓓;翁时锋 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 上海唯源专利代理有限公司 31229 | 代理人 | 曾耀先 |
主权项 | 一种半监督分类方法,其特征在于,包括以下步骤:构建词典,所述词典中包括所有文本数据中出现的词;采集当前时刻文本数据,所述当前时刻的一部分文本数据未标注类别标签;计算当前时刻每一个文本数据相对于所述词典的特征向量;根据计算出的当前时刻文本数据相对于所述词典的特征向量,计算当前时刻各个文本数据之间的相似性;获取预存的前一时刻文本数据及前一时刻数据相对于所述词典的特征向量;根据当前时刻和前一时刻文本数据相对于所述词典的特征向量,计算前一时刻的各个文本数据与当前时刻各个文本数据之间的相似性;根据当前时刻文本数据之间的相似性以及前一时刻与当前时刻的文本数据之间的相似性,获取当前时刻未标注类别标签的文本数据的类别标签。 | ||
地址 | 315194 浙江省宁波市鄞州区首南街道科创大厦 |