发明名称 基于领域知识的文本分类特征选择及权重计算方法
摘要 本发明涉及人工智能技术领域,特别是一种基于领域知识的文本分类特征选择及权重计算方法。该方法结合样本统计与领域术语构造领域分类特征空间,利用领域内部知识关系,计算术语间的相似度,依此来调整分类特征向量相应特征维权重。并采用支持向量机学算法,建立领域文本分类模型,实现领域文本分类。云南旅游领域与非旅游领域文本分类实验结果表明,该方法分类准确率比改进TFIDF特征权重方法的文本分类效果提高了4个百分点。
申请公布号 CN100583101C 申请公布日期 2010.01.20
申请号 CN200810058517.0 申请日期 2008.06.12
申请人 昆明理工大学 发明人 余正涛;韩露;向凤红;万舟;熊新
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06N1/00(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 昆明正原专利代理有限责任公司 代理人 金耀生
主权项 1.一种基于领域知识的文本分类特征选择及权重计算方法,其特征在于按以下步骤进行:(1)收集领域文本和非领域文本作为训练语料和测试语料;(2)文本的预处理:分词,去除停用词,词频统计,文档频率统计;首先对文本进行中文分词处理,采用中科院计算所的分词系统接口实现,并在此基础上借助于领域词库,进行领域词分词处理,并进行领域词标识,文本分词完成后,去掉文本中经常出现的“了”、“呢”、“的”、“怎样”停用词,然后扫描文档,统计出每个词的词频、领域内文档频率及非领域内文档频率;(3)在文本预处理完成后,初步利用文档频率去掉低频词,选取1000个特征词,构成分类特征空间;特征词的权重计算采用改进TFIDF=TF×log(m÷(m+k)×N)方法,其中TF表示某一特征项的词频,m表示该特征项的领域内文档频率,k表示该特征项的非领域内文档频率,N表示全部文档数;(4)在步骤(3)的基础上选取特征空间并扩展领域术语到特征空间,形成分类特征空间并采用改进TFIDF方法进行特征权重计算;即将领域词库中出现的所有领域术语直接扩展到分类特征空间中;(5)在步骤(3)的基础上选取分类特征空间,并利用改进TFIDF方法结合领域知识关系对特征权重进行计算和调整;即通过文档频率DF方法获取特征空间后,利用“知网”中领域术语与特征词之间的相关性对特征词权重进行调整,在有限的特征空间内对特征词权重进行调整进而改进文本分类效果;(6)利用特征空间选择及特征权重计算方法,用支持向量机SVM机器学习算法,训练文本分类器,构建领域文本分类模型,并对领域文本进行文本分类实验验证。
地址 650093云南省昆明市五华区学府路253号