发明名称 基于模糊数据挖掘的中文网页自动分类方法
摘要 本发明公布了一种基于模糊数据挖掘的中文网页自动分类方法,该方法由分类词语描述库构建部分、新网页预处理部分、模糊分类匹配器部分以及分类结果模糊评判部分组成。通过应用模糊综合评判的方法,将构建分类词语描述库时所生产的训练集特征词向量模糊矩阵和新网页预处理部分所生产的网页特征词模糊向量进行模糊分类运算,再通过分类结果模糊评判,从而得到该中文网页的模糊分类。该方法能有效提高分类效率,解决分类模糊性问题,具有良好的可扩展性,操作简单方便,易于推广。
申请公布号 CN101794311B 申请公布日期 2012.06.13
申请号 CN201010118500.7 申请日期 2010.03.05
申请人 南京邮电大学 发明人 孙雁飞;姚蓓丽;张顺颐;王攀
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京经纬专利商标代理有限公司 32200 代理人 许方
主权项 1.一种基于模糊数据挖掘的中文网页自动分类方法,其特征在于该方法的步骤为:1)根据用户所输入待分类网页P的网址URL,进行待分类网页P的预处理,预处理过程包括提取网页的HTML源码、对网页源码中的广告、注释内容过滤去噪以及提取出网页中的中文文本内容;2)利用分词器对所提取出的中文文本内容进行分词操作,得到中文网页的分词后文本;3)通过关键词频度分析器,对能体现该待分类网页P的主题和关键内容的的关键词进行提取,并按照关键词权重对关键词进行排序,提取出待分类网页P的特征词集合T;4)初始化数据表D:该数据表D是用于存储构建分类词语描述库时所生产的总特征词集合Z的总特征词向量模糊矩阵R;总特征词是通过文本预处理、训练集总特征词选择以及总特征词集合模糊化的模块得到的;5)按照数据表D中总特征词的顺序对待分类网页P的特征词集合T进行特征词频度分析;6)判断总特征词集合Z中的特征词是否存在于待分类网页P中;如果待分类网页P存在该特征词t,则转入步骤7);如果不存在该特征词t,则转到步骤5);7)统计总特征词集合Z中的特征词在待分类网页P中出现的频度;8)构造隶属函数,将待分类网页P进行模糊化处理,得到待分类网页P的特征词向量模糊矩阵B;9)将待分类网页P的特征词向量模糊矩阵B和总特征词向量模糊矩阵R进行模糊分类匹配,得到待分类网页P的分类结果模糊向量C={c<sub>1</sub>,c<sub>2</sub>,...,c<sub>m</sub>};10)对待分类网页P的分类结果模糊向量C={c<sub>1</sub>,c<sub>2</sub>,...,c<sub>m</sub>}进行“归一化”处理,得到归一化后的向量记为C′,C′=(c<sub>1</sub>/S,c<sub>2</sub>/S,...,c<sub>m</sub>/S),其中,<img file="DEST_PATH_FSB00000766426400011.GIF" wi="207" he="114" />比较模糊向量C′中的各个元素的值,从中挑选出最大的隶属度值c<sub>k</sub>,1≤k≤m;11)分类结果模糊评判,判断最大隶属度值c<sub>k</sub>与判别阈值α之间的关系,在归一 化后的模糊向量C′中,若有且仅有一个元素的值c<sub>k</sub>≥α,则判断新网页是归于第k类的;若每一个元素的值c<sub>k</sub>≤α,则判断新网页是不属于本系统分类体系中的任一类别;若不止一个元素c<sub>k</sub>≥α,则判断新网页是属于所有元素值大于α所对应的类别,由此得出分类并输出分类结果;判别阈值α的确定需要经过反复实验,综合所有类别的情况,使得各个分类的准确度保持在一个均衡的水平;12)分类成功,结束;其中,m是训练集网页的类别数目。
地址 210046 江苏省南京市亚东新城区文苑路9号