发明名称 一种基于类间区分度及类内高表征度的文本特征提取方法
摘要 本发明公开了一种基于类间区分度及类内高表征度的文本特征提取方法,其中,所述文本特征提取方法包括:预处理训练集文本;改良的特征选择方法,通过计算每个特征词的类别区分度,选取更具有类别代表性的特征词,使其在各个不同的类之间具有很高的区分度,并且通过进一步结合特征词在类内的分布率和信息增益IG对在选出的高类别区分度的特征词进一步筛选。采用本发明,可以通过两次特征选择过程,选出类内具有高信息熵且分布率高的特征词,提高分类效率和准确度,并且计算简单,可以提高文本分类的速度与准确性。
申请公布号 CN105893388A 申请公布日期 2016.08.24
申请号 CN201510014438.X 申请日期 2015.01.01
申请人 成都网安科技发展有限公司 发明人 黄筱聪;朱永强
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 代理人
主权项 一种基于类间区分度及类内高表征度的文本特征提取方法,其特征在于,具体包括以下步骤:步骤1:获取不同类别的文本集合,作为语料训练集。步骤2:对语料训练集的文本进行预处理,包括中文分词,去停用词处理;步骤3:使用基于类间区分度及类内高表征度的文本特征提取方法对文本进行特征选择,选出N个特征(N为预设阈值),作为上述语料训练集的文本特征集合。
地址 610092 四川省成都市青羊工业总部基地G6C