发明名称 新闻事件的聚类方法及装置
摘要 本发明公开了一种新闻事件的聚类方法及装置。其中方法包括:挖掘新闻页面的URL,提取所述新闻页面的页面标题;根据搜索点击日志数据,查找所述新闻页面的URL对应的搜索词;根据所述页面标题和/或搜索词,对所述新闻页面进行聚类处理,其中,聚为一类的新闻页面构成一个新闻事件;从每个新闻事件的所有新闻页面对应的页面标题和/或搜索词中查找得到所述新闻事件的描述信息。本发明提供的是新闻事件的自动聚类方法,相对于现有技术来说,效率大大提高。另外,本发明一方面考虑到页面标题之间的关联性,另一方面考虑到搜索词的关联性,利用两方面的关联性完成新闻事件的聚类,提升了新闻事件聚类的精确性。
申请公布号 CN106021418A 申请公布日期 2016.10.12
申请号 CN201610319385.7 申请日期 2016.05.13
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 彭力扬;韩明辉;王肖磊;陈劲;魏自立;李浩
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市浩天知识产权代理事务所(普通合伙) 11276 代理人 宋菲;刘云贵
主权项 一种新闻事件的聚类方法,包括:挖掘新闻页面的URL,提取所述新闻页面的页面标题;根据搜索点击日志数据,查找所述新闻页面的URL对应的搜索词;根据所述页面标题和/或搜索词,对所述新闻页面进行聚类处理,其中,聚为一类的新闻页面构成一个新闻事件;从每个新闻事件的所有新闻页面对应的页面标题和/或搜索词中查找得到所述新闻事件的描述信息。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)