发明名称 |
面向微博文本分类的挖掘方法及系统 |
摘要 |
本发明涉及一种面向微博文本分类的挖掘方法,包括如下步骤:获取现有的微博数据;对获取的微博文本进行分析和预处理;对所述微博文本的词项集合进行搜索遍历,去除停用词词项;对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集,所述原始特征词项集合为所有微博文本的词项集合;对所述N个词项进行关联规则挖掘,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。本发明还涉及一种面向微博文本分类的挖掘系统。本发明能够有效地简化原始微博文本的关联规则挖掘复杂度,且所需要分析的数据量大大减少,提高了微博文本分类精度。 |
申请公布号 |
CN103593454A |
申请公布日期 |
2014.02.19 |
申请号 |
CN201310591482.8 |
申请日期 |
2013.11.21 |
申请人 |
中国科学院深圳先进技术研究院 |
发明人 |
罗军;章昉 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
深圳市科进知识产权代理事务所(普通合伙) 44316 |
代理人 |
沈祖锋;郝明琴 |
主权项 |
一种面向微博文本分类的挖掘方法,其特征在于,该方法包括如下步骤:a.获取现有的微博数据;b.对获取的微博文本进行分析和预处理;c.对所述微博文本的词项集合进行搜索遍历,去除停用词词项;d.对原始特征词项集合中的每个词项做开发检验CHI值计算,所得出的最高值的N个词项作为特征词项集,所述原始特征词项集合为所有微博文本的词项集合;e.对所述N个词项进行关联规则挖掘,将微博文本中的特征词项的强关联词项加入到该微博的特征词项集中,以提高微博文本分类精度。 |
地址 |
518055 广东省深圳市南山区西丽大学城学苑大道1068号 |