发明名称 |
识别新闻网页属性特征的方法和系统 |
摘要 |
本发明提供了一种识别新闻网页属性特征的方法和系统,方法包括:从抓取到的新闻网页中分别提取标题信息和正文信息;分别对标题信息和正文信息进行分析,根据标题信息分析数据与正文信息分析数据计算标题信息和正文信息的匹配度;根据标题信息和正文信息的匹配度,判断新闻网页的属性特征。本发明的优点在于,可以识别新闻网页的属性特征,该属性特征反映网页标题信息和正文信息的相关性,可以识别出其是否为“垃圾新闻”网页。 |
申请公布号 |
CN103617213A |
申请公布日期 |
2014.03.05 |
申请号 |
CN201310585455.X |
申请日期 |
2013.11.19 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
韩孟岗 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京鼎佳达知识产权代理事务所(普通合伙) 11348 |
代理人 |
王伟锋;刘铁生 |
主权项 |
一种识别新闻网页属性特征的方法,其包括:从抓取到的新闻网页中分别提取标题信息和正文信息;分别对所述标题信息和所述正文信息进行分析,根据标题信息分析数据与正文信息分析数据计算所述标题信息和所述正文信息的匹配度;根据所述标题信息和所述正文信息的匹配度,判断所述新闻网页的属性特征。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |