基于中文网页自动分类技术的Web用户行为分析方法,申请号CN201110227800.3-传众专利搜索

发明名称	基于中文网页自动分类技术的Web用户行为分析方法
摘要	本发明提供了一种基于中文网页自动分类技术的web用户行为分析方法，采用朴素贝叶斯分类方法，使用类别概率和特征项的联合分布概率自动推理出web用户所浏览的网页的类别，在网页分类的基础上对web用户的上网惯进行分析，得出用户行为分析结果。本发明的关键技术是构造了一个动态的训练集，能够根据分类准确度指标自动更新，使得训练集更加具有时效性和代表性。本方法一共分为四个模块：数据处理模块、特征提取模块、网页分类模块和用户行为分析模块。数据处理模块主要是获取用户的基本信息和用户所浏览的网页的源码，并从源码中提取出中文部分。特征提取模块主要筛选出能描述网页类别特征的特征项，最后表示成向量形式。
申请公布号	CN102402566A	申请公布日期	2012.04.04
申请号	CN201110227800.3	申请日期	2011.08.09
申请人	江苏欣网视讯科技有限公司	发明人	孙建;张梅琴;张顺颐;王攀
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构		代理人
主权项	一种基于中文网页自动分类技术的Web用户行为分析方法，其特征在于该方法的步骤：(1)数据采集。根据需求采集信息，主要是采集Web用户的基本信息和提取用户所浏览网页的URL。(2)网页源码提取。根据URL获取网页的源代码，并且除去Html标记、文本、图像、客户脚本等信息，只留下纯净的中文文本。(3)分词。采用最大双向匹配法，通过与中文词典的词条匹配，将中文Web文本的内容切分成若干词条组成的集合。(4)筛选关键词。筛选关键词分为关键词条长度筛选和去除重复关键词两个步骤。首先，将词条的范围限制到2到4之间，不在此范围内的词条对分类作用不大甚至起干扰作用，将这些词条剔除。然后，对每个文本中重复出现的词条只记录一次，并记录与之相关的词频，可以提高计算速度，减少计算错误。(5)确定特征项。网页中的中文关键词同类别之间满足χ2分布，所以采用χ2统计方法来确定特征项。先计算关键词在各类别中的频数，然后通过χ2统计公式来计算统计量，最后选择统计量较大的前1000个关键词作为特征项。(6)网页向量表示。记录所选定的特征项和与之相关的词频，并用向量的形式表示。网页向量的元素是特征项，元素值是本网页文本中特征项的词频。(7)用朴素贝叶斯分类方法进行网页分类。将类别概率作为先验概率，特征项的联合分布概率作为条件概率，根据贝叶斯理定理可求出后验概率。选择后验概率最大的类别作为待测网页的类别。(8)更新训练集。设置一个评价分类结果准确率的量度指标和阈值，每次分类完成后计算该分类结果的准备度指标，如果分类结果的准确度指标大于阈值，则更新训练集，将待测网页的网页向量加到训练集的相关类别中。否则，保持原有的训练集不变。(9)Web用户行为分析。组合不同的查询条件，结合用户基本信息和所浏览的网页的类别信息，可得出不同条件下用户浏览不同类型的Web网页的分布情况，根据这些信息可得出Web用户的行为习惯和爱好趋向，有助于提供更加个性化的服务。
地址	210003 江苏省南京市建邺区奥体大街69号01幢5层