发明名称 基于关键词频度分析的中文网页分类方法
摘要 一种基于关键词频度分析的中文网页分类方法,是根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,通过首先获取到网页的HTML源码,对网页进行预处理。通过测试和分析,利用正则表达式过滤器对噪音信息进行过滤,并提取出网页的中文文本,接着通过分词器和关键词频度分析器来将所提取的中文文本信息进行分词,通过该词在文本中的权重排序,通过网页模糊分类算法,得到该网页关键词所属类别的类别排名,取其中前几位,进行隶属率的计算,得出该网页的所属类别的模糊匹配结果。有利于高效的组织网络上海量信息,用于互联网用户兴趣度分析;搜索引擎目录更新;Web内容挖掘;在线文档管理;数字图书馆建设。
申请公布号 CN101593200B 申请公布日期 2012.10.03
申请号 CN200910031625.3 申请日期 2009.06.19
申请人 淮海工学院 发明人 掌明;垄成龙;卢艳宏;冯源;杨瑞;王攀
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 南京众联专利代理有限公司 32206 代理人 王彦明
主权项 一种基于关键词频度分析的中文网页分类方法,其特征在于根据所分析出的中文网页的关键词,依照中文分类主题词库进行中文网页分类模糊匹配,其步骤为:1)根据用户所输入的网址URL获取中文网页的HTML源码,对所获取的源码进行过滤和去噪,提取该网页中的中文文本;2)利用分词器对所提取出的中文文本进行分词操作,得到中文网页的分词后文本;3)通过关键词频度分析器,对该中文网页的分词后文本主要内容的关键词进行提取,并按照关键词权重对关键词进行排序;4)初始化数据表;该数据表是用于存储文本关键词和关键词所对应的类别,其中初始类别依据中图分类法得到,同时依据关键词类别设定训练集即事先准备好的已知分类的网页,在查找具体的网页时将未知分类网页同训练集进行比较计算,得到同训练集中最相似的类别作为需要查找的类别;关键词按照前一步骤所得出的权重进行排序,录入至数据表;5)按照上述数据表中关键词的顺序进入分类主题词库进行查找;6)判断分类主题词库中该关键词出现时所在的类别,如果分类主题词库中存在匹配的关键词和类别,则转入下一步骤7); 如果分类主题词库中不存在该关键词,则转到上一步骤5);7)将每个关键词查找的类别结果计入数据表的类别项中;8)对数据表中的类别信息进行统计,分析出对该中文网页隶属率最高的不少于3个类别;9)保存并输出分类结果。
地址 222005 江苏省连云港市新浦区苍梧路57号淮海工学院电子工程学院掌明转