发明名称 |
一种基于不平衡数据集的文本特征选择方法 |
摘要 |
一种基于不平衡数据集的文本特征选择方法,在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用c<sub>i</sub>表示;多数类为负类,用<img file="DDA0000936164120000011.GIF" wi="48" he="76" />表示;步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ<sup>2</sup>(t,c<sub>i</sub>);步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ<sup>2</sup>(t,c<sub>i</sub>)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';步骤6根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。 |
申请公布号 |
CN105808718A |
申请公布日期 |
2016.07.27 |
申请号 |
CN201610128100.1 |
申请日期 |
2016.03.07 |
申请人 |
浙江工业大学 |
发明人 |
吴哲夫;肖鹰;宣琦;王中友 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
杭州天正专利事务所有限公司 33201 |
代理人 |
王兵;黄美娟 |
主权项 |
一种基于不平衡数据集的文本特征选择方法,其特征在于:该选择方法在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用c<sub>i</sub>表示;多数类为负类,用<img file="FDA0000936164090000011.GIF" wi="46" he="79" />表示;步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ<sup>2</sup>(t,c<sub>i</sub>);步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ<sup>2</sup>(t,c<sub>i</sub>)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';步骤6根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。 |
地址 |
310014 浙江省杭州市下城区潮王路18号浙江工业大学科技处 |