发明名称 | 一种垃圾博客检测方法 | ||
摘要 | 本发明公开了一种垃圾博客检测方法。本发明是通过分析网络垃圾的作弊技术,针对垃圾博客的本质属性,运用二元分类的文本分类的技术,围绕博客文本内容特征、博客页面链接特征和博客文本时间分布特征等三个角度进行方法设计。本发明是建立在对博客网页内容全面分析的基础上,对博客的特征提取工作进行了优化,从而保证了对垃圾博客分类更高的准确率。 | ||
申请公布号 | CN101393555A | 申请公布日期 | 2009.03.25 |
申请号 | CN200810120972.9 | 申请日期 | 2008.09.09 |
申请人 | 浙江大学 | 发明人 | 陈纯;卜佳俊;张峰;仇光;郑淼 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 杭州求是专利事务所有限公司 | 代理人 | 林怀禹 |
主权项 | 1. 一种垃圾博客检测方法,其特征在于该方法的步骤如下:1)对博客文本内容属性进行分析,以正文文本口语化属性以及文本相似度属性和文本自关联属性为特征,对是否为垃圾博客进行判断;2)对博客页面链接属性进行分析和优化,并利用链接属性分析的主题搜索算法递归计算所得的结果对博客网页质量进行评价;3)对博客文本时间分布属性进行分析,并计算博客文本时间间隔的规则性特征,对是否为垃圾博客进行判断;4)综合博客文本内容属性、博客页面链接属性和博客文本时间分布属性三方面特征,运用文本自动分类算法进行分类。 | ||
地址 | 310027浙江省杭州市西湖区浙大路38号 |