发明名称 一种基于演化超网络的中文文本分类方法
摘要 本发明涉及一种基于演化超网络的中文文本分类方法,属于数据挖掘技术领域。该方法包括:将中文文本表示成向量形式;然后对文本向量降维,再对降维后的文本向量进行权值计算,确定输入的向量空间模型;最后使用演化超网络模型对输入的样本数据进行演化学,挖掘数据集内样本特征间的一系列关联关系,从而形成一个超网络分类模型,最终实现中文文本分类。本发明基于演化超网络的中文文本分类方法具有分类时间短,识别率和召回率高,学速度快,学结果可读性强,具备潜在的并行性,尤其适用于互联网网页数据挖掘和大规模搜索引擎。
申请公布号 CN103136377A 申请公布日期 2013.06.05
申请号 CN201310099833.3 申请日期 2013.03.26
申请人 重庆邮电大学 发明人 王进;金理雄;孙开伟
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 重庆市恒信知识产权代理有限公司 50102 代理人 刘小红
主权项 一种基于演化超网络的中文文本分类方法,其特征在于,把中文文本进行预处理表示成基于词条的N维向量;对预处理后文本进行文本特征选择,组成文本数据集的特征空间;根据文本数据集的特征空间计算特征向量的权值,将每个文本表示成一个加权特征向量,生成特征向量集合;对于给定的一个文本特征训练集,以特征向量值为权值,随机创建一个由带权值的超边组成的初始化超网络,输入训练样本的特征向量集,训练演化超网络模型分类器;向超网络模型分类器输入测试文本的特征向量集对中文文本进行分类,判断文本类别。
地址 400065 重庆市南岸区黄桷垭崇文路2号
您可能感兴趣的专利