基于领域知识的文本分类特征选择及权重计算方法,申请号CN200810058517.0-传众专利搜索

发明名称	基于领域知识的文本分类特征选择及权重计算方法
摘要	本发明涉及人工智能技术领域，特别是一种基于领域知识的文本分类特征选择及权重计算方法。该方法结合样本统计与领域术语构造领域分类特征空间，利用领域内部知识关系，计算术语间的相似度，依此来调整分类特征向量相应特征维权重。并采用支持向量机学算法，建立领域文本分类模型，实现领域文本分类。云南旅游领域与非旅游领域文本分类实验结果表明，该方法分类准确率比改进TFIDF特征权重方法的文本分类效果提高了4个百分点。
申请公布号	CN100583101C	申请公布日期	2010.01.20
申请号	CN200810058517.0	申请日期	2008.06.12
申请人	昆明理工大学	发明人	余正涛;韩露;向凤红;万舟;熊新
分类号	G06F17/30(2006.01)I;G06F17/27(2006.01)I;G06N1/00(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	昆明正原专利代理有限责任公司	代理人	金耀生
主权项	1.一种基于领域知识的文本分类特征选择及权重计算方法，其特征在于按以下步骤进行：(1)收集领域文本和非领域文本作为训练语料和测试语料；(2)文本的预处理：分词，去除停用词，词频统计，文档频率统计；首先对文本进行中文分词处理，采用中科院计算所的分词系统接口实现，并在此基础上借助于领域词库，进行领域词分词处理，并进行领域词标识，文本分词完成后，去掉文本中经常出现的“了”、“呢”、“的”、“怎样”停用词，然后扫描文档，统计出每个词的词频、领域内文档频率及非领域内文档频率；(3)在文本预处理完成后，初步利用文档频率去掉低频词，选取1000个特征词，构成分类特征空间；特征词的权重计算采用改进TFIDF＝TF×log(m÷(m+k)×N)方法，其中TF表示某一特征项的词频，m表示该特征项的领域内文档频率，k表示该特征项的非领域内文档频率，N表示全部文档数；(4)在步骤(3)的基础上选取特征空间并扩展领域术语到特征空间，形成分类特征空间并采用改进TFIDF方法进行特征权重计算；即将领域词库中出现的所有领域术语直接扩展到分类特征空间中；(5)在步骤(3)的基础上选取分类特征空间，并利用改进TFIDF方法结合领域知识关系对特征权重进行计算和调整；即通过文档频率DF方法获取特征空间后，利用“知网”中领域术语与特征词之间的相关性对特征词权重进行调整，在有限的特征空间内对特征词权重进行调整进而改进文本分类效果；(6)利用特征空间选择及特征权重计算方法，用支持向量机SVM机器学习算法，训练文本分类器，构建领域文本分类模型，并对领域文本进行文本分类实验验证。
地址	650093云南省昆明市五华区学府路253号