发明名称 |
新闻事件的聚类方法及装置 |
摘要 |
本发明公开了一种新闻事件的聚类方法及装置。其中方法包括:挖掘新闻页面的URL,提取所述新闻页面的页面标题;根据搜索点击日志数据,查找所述新闻页面的URL对应的搜索词;根据所述页面标题和/或搜索词,对所述新闻页面进行聚类处理,其中,聚为一类的新闻页面构成一个新闻事件;从每个新闻事件的所有新闻页面对应的页面标题和/或搜索词中查找得到所述新闻事件的描述信息。本发明提供的是新闻事件的自动聚类方法,相对于现有技术来说,效率大大提高。另外,本发明一方面考虑到页面标题之间的关联性,另一方面考虑到搜索词的关联性,利用两方面的关联性完成新闻事件的聚类,提升了新闻事件聚类的精确性。 |
申请公布号 |
CN106021418A |
申请公布日期 |
2016.10.12 |
申请号 |
CN201610319385.7 |
申请日期 |
2016.05.13 |
申请人 |
北京奇虎科技有限公司;奇智软件(北京)有限公司 |
发明人 |
彭力扬;韩明辉;王肖磊;陈劲;魏自立;李浩 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京市浩天知识产权代理事务所(普通合伙) 11276 |
代理人 |
宋菲;刘云贵 |
主权项 |
一种新闻事件的聚类方法,包括:挖掘新闻页面的URL,提取所述新闻页面的页面标题;根据搜索点击日志数据,查找所述新闻页面的URL对应的搜索词;根据所述页面标题和/或搜索词,对所述新闻页面进行聚类处理,其中,聚为一类的新闻页面构成一个新闻事件;从每个新闻事件的所有新闻页面对应的页面标题和/或搜索词中查找得到所述新闻事件的描述信息。 |
地址 |
100088 北京市西城区新街口外大街28号D座112室(德胜园区) |