发明名称 基于LDA主题聚类的微信公众号的分类方法
摘要 本发明提供一种基于LDA主题聚类的微信公众号的分类方法,包括以下步骤:通过每一活跃微信公众号来获取其推送的文章;利用分词工具对获取的每一篇文章进行词切分,过滤停用词,统计剩余词的词频反文档频率;选取词频反文档频率值大于门限阀值的剩余词为该文章的特征词;采用文档主题生成模型对全部活跃文章中的特征词做隐性主题发现,构建文章‑主题特征向量;采用主成分分析方法,对文章‑主题特征向量降维;采用Level‑Panel算法,对降维后的文章‑主题特征向量聚类,获取类簇以及类簇内的文章;根据微信公众号推送的文章的类簇信息确定微信公众号的类别。本发明能够准确地确定微信公众号的类别,方便广告主选择正确的微信公众号投放广告。
申请公布号 CN106021388A 申请公布日期 2016.10.12
申请号 CN201610312725.3 申请日期 2016.05.11
申请人 华南理工大学 发明人 郭泽豪;王振宇;李风环;戴瑾如
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 广州市华学知识产权代理有限公司 44245 代理人 罗观祥
主权项 一种基于LDA主题聚类的微信公众号的分类方法,其特征在于,所述方法包括以下步骤:S1.通过每一活跃微信公众号来获取该微信公众号推送的文章;S2.利用分词工具对获取的每一篇文章进行词切分,过滤停用词,统计剩余词的词频反文档频率;S3.选取词频反文档频率值大于门限阀值θ的剩余词作为该文章的特征词;S4.选择主题数K,采用文档主题生成模型对全部活跃公众号推送的文章的特征词做隐性主题发现,构建文章‑主题特征向量;S5.采用主成分分析方法,对文章‑主题特征向量降维;S6.采用Level‑Panel算法,对降维后的文章‑主题特征向量聚类,获取类簇以及类簇内的文章;S7.根据微信公众号推送的文章的类簇信息确定微信公众号的类别。
地址 510640 广东省广州市天河区五山路381号