发明名称 一种基于不平衡数据集的文本特征选择方法
摘要 一种基于不平衡数据集的文本特征选择方法,在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用c<sub>i</sub>表示;多数类为负类,用<img file="DDA0000936164120000011.GIF" wi="48" he="76" />表示;步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ<sup>2</sup>(t,c<sub>i</sub>);步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ<sup>2</sup>(t,c<sub>i</sub>)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';步骤6根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
申请公布号 CN105808718A 申请公布日期 2016.07.27
申请号 CN201610128100.1 申请日期 2016.03.07
申请人 浙江工业大学 发明人 吴哲夫;肖鹰;宣琦;王中友
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州天正专利事务所有限公司 33201 代理人 王兵;黄美娟
主权项 一种基于不平衡数据集的文本特征选择方法,其特征在于:该选择方法在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用c<sub>i</sub>表示;多数类为负类,用<img file="FDA0000936164090000011.GIF" wi="46" he="79" />表示;步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ<sup>2</sup>(t,c<sub>i</sub>);步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ<sup>2</sup>(t,c<sub>i</sub>)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';步骤6根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
地址 310014 浙江省杭州市下城区潮王路18号浙江工业大学科技处