发明名称 基于文本挖掘的互联网媒体用户属性分析方法
摘要 本发明公开了一种基于文本挖掘的互联网媒体用户属性分析方法,包括如下步骤:(1)文本挖掘:1.1:创建标签主语料库;1.2:创建特征语料库;1.3:语料库更新维护;(2)获取互联媒体网用户属性集合:2.1:抽取互联网媒体用户全量历史文章样本并清洗;2.2:对样本进行处理,得出噪音值;2.3:将噪音值与阈值a作比较,噪音值小于阈值a,则进行模型分类形成互联网媒体用户属性集合。通过本发明不仅能分析挖掘用户基本属性,识别用户属性的应用范围大大扩大,而且还可以分析互联网媒体用户的基本属性,能对互联网媒体用户的全方位属性提供支持,不仅具有广泛的商业应用价值,也为互联网媒体用户标签的挖掘算法和知识图谱的应用指明了研究方向。
申请公布号 CN104991968A 申请公布日期 2015.10.21
申请号 CN201510444180.7 申请日期 2015.07.24
申请人 成都云堆移动信息技术有限公司 发明人 王飞;张国鸿;张何君
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京天奇智新知识产权代理有限公司 11340 代理人 郭霞
主权项 一种基于文本挖掘的互联网媒体用户属性分析方法,其特征在于:包括以下步骤:(1)文本挖掘:1.1:创建标签主语料库:1.1.1:抽取文章样本,对样本进行清洗,清洗掉音频、视频、图片和残缺文章、乱码、非法字符;1.1.2:根据标签类库人工分类;1.1.3:对样本同时进行动态聚类和模糊聚类,设置簇参数;1.1.4:依次进行语义分析、簇特征分析、修正簇参数和密度降噪处理,得出噪音值M;1.1.5:将噪音值M与阈值a作比较,如果噪音值M小于阈值a,则跳转至步骤1.1.6,如果噪音值M大于或等于阈值a,则跳转至步骤1.1.3;1.1.6:再依次进行模型聚类、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值N;1.1.7:将噪音值N与阈值a作比较,如果噪音值N小于阈值a,则跳转至步骤1.1.8,如果噪音值N大于或等于阈值a,则进行修正标签类库后跳转至步骤1.1.6;1.1.8:进行模型分类形成标签主语料库;1.2:创建特征语料库:1.2.1:对标签主语料库依次进行样本词频分析、语义分析;1.2.2:进行高词频分类;1.2.3:创建特征词与标签类库的映射模型,形成特征语料库;1.3:语料库更新维护:1.3.1:抽取全量已分类文章样本;1.3.2:依次进行词频分析、语义分析、密度降噪处理和清洗噪音数据,样本分类,更新标签主语料库或者特征语料库;1.3.3:搜集新增标签,抽取带新增标签文章样本,进入步骤1.1,清洗噪音数据,样本分类,更新标签主语料库;(2)获取互联网媒体用户属性集合:2.1:抽取互联网媒体用户全量历史文章样本,对样本进行清洗,清洗掉视频、音频和图片;2.2:对样本进行动态聚类和模糊聚类同步处理,再依次进行词频分析、语义分析、类特征分析、修正类参数和密度降噪处理,得出噪音值A;2.3:将噪音值A与阈值a作比较,如果噪音值A小于阈值a,则跳转至步骤2.4,如果噪音值A大于或等于阈值a,则跳转至步骤2.2;2.4:再依次进行模型聚类、语义分析、类特征分析和密度降噪处理,得出噪音值B;2.5:将噪音值B与阈值a作比较,如果噪音值B小于阈值a,则跳转至步骤2.6,如果噪音值B大于或等于阈值a,则进行修正类参数处理后跳转至步骤2.4;2.6:进行模型分类形成互联网媒体用户属性集合;上述步骤中,阈值a根据业务需要进行调整,一般选择0.01;上述步骤中涉及下述词语的定义如下:标签类库:由一类自定义标签形成的类库,每一个标签均指向同一类属性的事物,不同类标签之间有明显特征区别,遵循高聚类、低耦合的原则;簇参数:用聚类算法进行聚类时,根据标签类库的标签种类数量及文章的相似度人为设定的一个组类数量,同组类的样本相似度较高,异组类的样本相似度较低,聚类时以此参数作为分组的依据,并通过人工监督的方式不断调整该参数,以达到与标签类库最佳匹配的目的;语义分析:第一,人工分析:对样本进行聚类后,通过人工抽样的方式,对样本进行人工理解,判断样本之间的相似度的过程,同时作为簇参数的修改依据;第二,机器分析:对样本进行分类时,通过与语料库的匹配算法,对样本进行分类的过程,同时作为语料库修正的依据;簇特征分析:通过语义分析,利用提取主特征的算法,对已聚类的簇进行特征提取和标识的过程;修正簇参数:在构建语料库时,对样本进行第一次聚类后,通过人工监督学习的方式,利用簇特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;密度降噪处理:在簇特征分析过程中,需要对数据进行噪音处理,将主特征散点分布图中距离较远的点去掉,以形成可反应主特征的类别集合,这个去除噪音点的过程,即为密度降噪处理;类特征分析:经过第一次簇降噪,对降噪后的类别集合进行特征提取和标识的过程;修正类参数:在构建语料库时,对样本进行第二次聚类后,通过人工监督学习的方式,利用类特征分析,调整聚类的组类数量以达到与标签类库的最佳匹配,这个调整组类数量的过程即为修正簇参数;修正标签类库:在第二次聚类的过程中,由于已经进行过一次降噪处理,样本分类模型已初步满足高聚类、低耦合的原则,再基于此模型进行第二次降噪处理后,基本可以达到业务要求,此时的分类模型已经确定,需要通过调整标签类库来达到与分类的最佳匹配,此调整过程即为修正标签类库;基于模型分类:经过两次降噪处理后,形成一个基于样本的分类模型,作为冷启动的修正算法,再对需要分类的样本基于该模型进行分类的过程;动态聚类:按照限定类别去发现符合类别的样本词汇;模糊聚类:按照样本词汇语义模糊归属类别;模型聚类:先假设一个类别,再去发现符合类别的样本词汇,将给定类别和样本词汇达到最佳拟合。
地址 610041 四川省成都市高新区府城大道西段399号5栋1单元12层1-3号