发明名称 基于块划分及位置权重的文本分类方法
摘要 本发明公开一种基于块划分及位置权重的文本分类方法。它包括步骤:对输入的训练或测试文本经过基本的预处理后,提取文本中的段信息;将每一段视为一个基本的文本块,对块信息做统计分析,根据块大小分布或预定义的块比率,对文本内容重新进行块划分,包括文本块的合并等操作。提取特征词、量化权重,并获取特征词对类别的后验概率,然后分析具有最大后验概率类别与文本类别标签相符的特征词的分布,最后生成文本向量;利用分类器完成分类模型训练或文本分类。本发明可用于文本分类系统的文本表示阶段,通过丰富传统的利用特征词构建文本向量时对文本内容信息的表达,提升文本分类效果。
申请公布号 CN102033964A 申请公布日期 2011.04.27
申请号 CN201110006501.7 申请日期 2011.01.13
申请人 北京邮电大学 发明人 周亚建;平源;杨义先;彭维平;刘念
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京理工大学专利中心 11120 代理人 张利萍;高燕燕
主权项 基于块划分及位置权重的文本分类方法,其特征在于:包括如下步骤:第一步:预处理及原始段、块的提取与标记:对输入的训练或测试文本使用基本的预处理,分析、提取并标记文本的原始段信息,将每个段视为一个文本块;第二步:统计分析每个文本的块大小与分布,根据一个阈值,对近邻小文本块做合并操作;根据预定义块比率对整个文本或特定文本块重新进行块划分和标记;第三步:判断处理对象,若为训练集文本,转入第四步,否则转入第六步;第四步:利用常规的特征提取方法从训练集文本中提取特征词tj;使用特征权重量化方法,计算特征词的权重wj;计算特征词tj对每个训练类别的后验概率;第五步:提取每个训练集文本中的具有最大后验概率类别与文本类标相符的特征词的分布,分析该特征词分布,选择合适的位置权重表达式f(b),其中b为块号;第六步:根据第四步的特征词,提取测试文本的特征词tj、所属文本块号bj及原始权重wj;计算位置权重f(bj)·wj来替代原始权重wj,并输出文本向量;第七步:利用分类器完成分类模型训练或文本分类。
地址 100876 北京市海淀区西土城路10号