发明名称 利用计算机的基于多媒体分析的新闻人物检索方法
摘要 本发明是一种利用计算机的基于多媒体分析的新闻人物检索方法,包括:对新闻图像做数据预处理;多模态融合人物关系初始化;事件关系初始化,提出了多关系的概率矩阵分解模型挖掘潜在的关系,根据用户提交的查询关键词和已重构出来的关系对新闻人物和新闻事件按照与查询关键词的相关性进行排序;检索结果浏览界面:用户向计算机提交的人物名字为检索关键词,提供了一个以查询人物为中心的关系视图和一个相关新闻事件列表视图,将检索结果反馈给用户。
申请公布号 CN102024056A 申请公布日期 2011.04.20
申请号 CN201010605832.8 申请日期 2010.12.15
申请人 中国科学院自动化研究所 发明人 卢汉清;李泽超;刘静
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中科专利商标代理有限责任公司 11021 代理人 梁爱荣
主权项 利用计算机的基于多媒体分析的新闻人物检索方法,其特征在于包括步骤如下:步骤S1:利用计算机提取新闻图像,用自然语言处理技术提取出新闻文档的标题、时间、网站、摘要和正文以及对应的网址,提取出图像的网址和图像对应的文本信息,并去除重复文档和从新闻文档中提取出任命,为后续工作提供数据支持;步骤S2:多模态融合的关系初始化:基于步骤S1提供的数据,一是统计人物在事件中出现的频率,采用二值关系作为人物‑事件的初始关系,即人物在事件中出现则二者的关系为1,否则为0;二是利用当前新闻网页的文本信息和图像信息计算人物之间的关系,利用统计语言处理技术统计新闻人物在新闻文本中的共生关系,以及利用人脸识别技术统计新闻人物在新闻图片中的共生关系,将这两种共生关系线性加权作为新闻人物的初始关系;三是利用一篇新闻文档的标题、摘要和正文部分的不同重要性;对一篇文档而言,标题是最重要的,摘要次之,最后是正文;分别统计文档的标题、摘要和正文的相似关系,然后将这三种相似关系分别赋予不同的权重进行加权,得到的结果作为新闻文档之间的初始关系;步骤S3:关系重构:基于步骤S2计算出来的人物‑事件、人物‑人物以及事件‑事件的初始关系,采用综合多种关系的概率矩阵分解模型挖掘出潜在的人物特征矩阵和潜在的事件特征矩阵,利用得到的潜在矩阵对人物‑事件、人物‑人物和事件‑事件关系进行重构;在矩阵分解的过程中,并通过矩阵之间共享因子将事件‑人物、人物‑人物和事件‑事件这三种关系矩阵无缝地结合起来,最后利用通过优化目标函数得到矩阵因子重构和细化关系矩阵,挖掘出潜在的关系;步骤S4:根据用户提交的查询关键词和已重构出来的关系对新闻人物和新闻事件按照与查询关键词的相关性进行排序;步骤S5:检索结果浏览界面:用户向计算机提交的人物名字为检索关键词,提供了一个以查询人物为中心的关系视图和一个相关新闻事件列表视图,将检索结果反馈给用户。
地址 100190 北京市海淀区中关村东路95号