发明名称 | 一种追踪相似稿件和图片的方法及系统 | ||
摘要 | 本发明公开了一种追踪相似稿件和图片的方法及系统,首先为需要组织的新闻事件命名一个专题,根据专题的追踪范围,将追踪开始时间到结束时间内的稿件追踪入库得到追踪样本;然后建立N个与所述需要组织的新闻事件有关的训练样本,并根据训练样本提取专题的关键词,设置关键词的分值;之后设置专题阈值;最后根据关键词对入库的追踪样本进行检索,根据检索到的稿件或图片的分值是否大于或者等于阈值来确定需要组织的新闻事件有关的稿件。通过该方法及系统,客户端能够自动追踪所需要组织的新闻事件的相似稿件,减少用户人工关联的工作量,大大提高了组织相似稿件和图片的效率。 | ||
申请公布号 | CN103853787A | 申请公布日期 | 2014.06.11 |
申请号 | CN201210518652.5 | 申请日期 | 2012.12.06 |
申请人 | 北大方正集团有限公司;北京北大方正电子有限公司 | 发明人 | 张宇伟 |
分类号 | G06F17/30(2006.01)I | 主分类号 | G06F17/30(2006.01)I |
代理机构 | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人 | 田明;任晓航 |
主权项 | 一种追踪相似稿件和图片的方法,包括以下步骤:(1)为需要组织的新闻事件命名一个专题,并设置专题的相关信息;所述相关信息包括专题的名称、追踪范围、追踪开始时间和追踪结束时间;所述追踪范围是指追踪稿件类型;(2)根据专题的追踪范围,将追踪开始时间到追踪结束时间内的文件追踪入库,得到追踪样本;所述文件包括稿件和图片;(3)建立N个与所述需要组织的新闻事件有关的训练样本,根据训练样本提取专题关键词,并设置关键词分值;N为大于等于2的正整数;(4)根据所提取的专题关键词确定训练样本的分值,并根据训练样本的分值设置专题阈值;(5)根据专题关键词对入库的追踪样本进行检索,并根据关键词的分值计算检索到的稿件或图片的分值;(6)查看检索到的稿件或图片的分值是否大于或者等于专题阈值,若是则认为检索到的稿件或图片是与所述需要组织的新闻事件有关的稿件或图片,提取稿件或图片并与专题建立关联;若否则追踪失败。 | ||
地址 | 100871 北京市海淀区成府路298号方正大厦 |