一种基于不平衡数据集的文本特征选择方法,申请号CN201610128100.1-传众专利搜索

发明名称	一种基于不平衡数据集的文本特征选择方法
摘要	一种基于不平衡数据集的文本特征选择方法，在计算机上计算不平衡文档的特征集合，选择分类算法模型进行建模，具体包括以下步骤：步骤1将数据集分成多数类和少数类，并规定少数类为正类，用c<sub>i</sub>表示；多数类为负类，用<img file="DDA0000936164120000011.GIF" wi="48" he="76" />表示；步骤2将数据集中的文本进行预处理，分词、去除停用词等操作，形成特征t的集合T；步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N；步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ<sup>2</sup>(t,c<sub>i</sub>)；步骤5在不平衡类别文档中分别设置筛选特征的阈值，并根据每个特征计算出来的χ<sup>2</sup>(t,c<sub>i</sub>)按照大小顺序排列，按照类别取出指定特征数目的特征集合T'；步骤6根据特征选择后的特征集合T'，选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
申请公布号	CN105808718A	申请公布日期	2016.07.27
申请号	CN201610128100.1	申请日期	2016.03.07
申请人	浙江工业大学	发明人	吴哲夫;肖鹰;宣琦;王中友
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	杭州天正专利事务所有限公司 33201	代理人	王兵;黄美娟
主权项	一种基于不平衡数据集的文本特征选择方法，其特征在于：该选择方法在计算机上计算不平衡文档的特征集合，选择分类算法模型进行建模，具体包括以下步骤：步骤1将数据集分成多数类和少数类，并规定少数类为正类，用c<sub>i</sub>表示；多数类为负类，用<img file="FDA0000936164090000011.GIF" wi="46" he="79" />表示；步骤2将数据集中的文本进行预处理，分词、去除停用词等操作，形成特征t的集合T；步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N；步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ<sup>2</sup>(t,c<sub>i</sub>)；步骤5在不平衡类别文档中分别设置筛选特征的阈值，并根据每个特征计算出来的χ<sup>2</sup>(t,c<sub>i</sub>)按照大小顺序排列，按照类别取出指定特征数目的特征集合T'；步骤6根据特征选择后的特征集合T'，选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
地址	310014 浙江省杭州市下城区潮王路18号浙江工业大学科技处