发明名称 融合地理信息与视觉信息的网络新闻检索系统及方法
摘要 本发明提出了一种融合地理信息与视觉信息的网络新闻检索系统及方法。该系统包括:数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析;新闻配图模块,用于为新闻选择合适的图像;检索结果展示模块,用于基于检索相关性排序展示检索到的新闻。本发明的系统及方法综合利用了地理位置信息和视觉信息对网络新闻进行描述与展示,为网络用户提供基于地理位置的多媒体新闻检索,同时综合了新闻地点-新闻事件的关系、新闻地点的相关性以及新闻事件之间的关系,从而提供给用户一个更生动、更富信息的新闻搜索结果。
申请公布号 CN102364473B 申请公布日期 2013.11.20
申请号 CN201110352002.3 申请日期 2011.11.09
申请人 中国科学院自动化研究所 发明人 卢汉清;刘静;李泽超
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 王波波
主权项 1.一种融合地理信息与视觉信息的网络新闻检索系统,该系统包括:数据预处理模块,用于爬取新闻数据并进行文本分析和信息数据提取,所述新闻数据包括人物,地点、时间和文本信息;地点相关性分析模块,用于执行新闻事件与新闻地点的相关性分析;新闻配图模块,用于为新闻选择能够说明新闻内容的图像;检索结果展示模块,用于基于检索相关性排序展示检索到的新闻;所述地点相关性分析模块包括:地理名词过滤和扩展模块,用于获取地理名词的地理位置信息;基于矩阵分解的相关性分析模块,用于利用一致性约束概率矩阵分解方法分析新闻地点和新闻事件之间的关系,所述一致性约束概率矩阵分解方法基于下述规则分析新闻地点和新闻事件之间的关系:相似度较高的新闻事件很可能发生在同一个地方,以及相关性较高的多个地点与同一个新闻事件的关系是相近的,所述一致性约束概率矩阵分解方法的目标函数为:<img file="FDA0000377634290000018.GIF" wi="1232" he="166" /><img file="FDA0000377634290000012.GIF" wi="1217" he="123" />其中,M为地点的数量;N为事件的数量;δ是标识矩阵,如果i和j的关系大于零,则δ<sub>ij</sub>=l,否则δ<sub>ij</sub>=0;<img file="FDA0000377634290000019.GIF" wi="267" he="61" />是初始的地点-事件的0-1关系矩阵;<img file="FDA00003776342900000112.GIF" wi="247" he="70" />表示期望的地点-事件关系矩阵;<img file="FDA0000377634290000013.GIF" wi="578" he="77" /><img file="FDA0000377634290000014.GIF" wi="84" he="94" />为地点-事件的关系估计误差所服从的高斯分布的方差;<img file="FDA0000377634290000015.GIF" wi="64" he="78" />为潜在的H维地名特征矩阵服从高斯分布的方差;<img file="FDA0000377634290000016.GIF" wi="65" he="78" />为潜在的H维事件特征矩阵服从高斯分布的方差;<img file="FDA00003776342900000111.GIF" wi="244" he="60" />表示潜在的H维地名特征矩阵;<img file="FDA00003776342900000110.GIF" wi="235" he="60" />表示潜在的H维事件特征矩阵;λ<sub>C</sub>和λ<sub>S</sub>是两个非负的权重系数;L<sup>C</sup>=D<sup>C</sup>-C和L<sup>S</sup>=D<sup>S</sup>-S是拉布拉斯矩阵,D<sup>C</sup>是对角矩阵,定义为<img file="FDA0000377634290000017.GIF" wi="350" he="93" />D<sup>S</sup>是对角矩阵,定义为<img file="FDA0000377634290000023.GIF" wi="623" he="91" />表示地点之间的相关性矩阵;<img file="FDA0000377634290000022.GIF" wi="233" he="67" />表示事件相似性矩阵;Tr[]是矩阵求迹运算;基于上述模型求解得到P和E,然后采用P<sup>T</sup>E近似R;所述新闻配图模块包括:检索词生成模块,用于从新闻数据中抽取一个或多个关键词,将其组合成检索词并提交给图像搜索引擎进行图像检索;图像排序和选择模块,用于对检索到的图像进行排序和去重,并选择能够说明新闻内容的图像。
地址 100190 中国北京市海淀区中关村东路95号