发明名称 一种基于柔性语义相似性度量的中文新闻故事分割方法
摘要 本发明公开了一种基于柔性语义相似性度量的中文新闻故事分割方法,所述方法包括以下步骤:输入目标文集,对文集中的每个新闻故事脚本T<sub>i</sub>进行分词;建立上下文关系图;通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵;通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义;使用所述柔性语义相似性对中文新闻故事进行分割。本发明提出的柔性度量方法能够更加合理的表示词语之间以及词语集合之间的语义相似性。实验结果表明,在中文新闻故事分割技术中,基于相同的分割准则,与传统的相似性度量方法相比,使用该柔性语义相似性度量方法能够将分割精度提高到3%‑10%。
申请公布号 CN103793491B 申请公布日期 2017.01.25
申请号 CN201410027012.3 申请日期 2014.01.20
申请人 天津大学 发明人 冯伟;万亮;聂学成;高晓妮;党建武
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 天津市北洋有限责任专利代理事务所 12201 代理人 温国林
主权项 一种基于柔性语义相似性度量的中文新闻故事分割方法,其特征在于,所述方法包括以下步骤:(1)输入目标文集<img file="FDA0001113071110000011.GIF" wi="230" he="62" />对文集中的每个新闻故事脚本T<sub>i</sub>进行分词;(2)建立上下文关系图;(3)通过所述上下文关系图和快速排序算法对词语之间的上下文相关性进行迭代传播获取柔性语义相关性矩阵;(4)通过所述柔性语义相关性矩阵对句子间的柔性语义相似性进行定义;(5)使用所述柔性语义相似性对中文新闻故事进行分割;所述建立上下文关系图的步骤具体为:1)依次读入每个新闻故事脚本,对所包含的词语进行词频统计;2)根据定义好的词频阈值,将高频词语和低频词语删除;3)将保留下的词语作为上下文关系图中的结点,其集合即为V;4)判断集合中的任意两个词语是否同时出现在某一新闻故事脚本中,且这两个词语之间的距离小于或等于距离阈值,如果是则在这两个词语之间建立边,边的集合即为E;如果否重新判断其他任意两个词语,直至整个集合中的词语都被遍历;5)边的权值S<sub>C</sub>由词语之间的权值sim<sub>C</sub>(a,b)、词语本身的权值sim<sub>C</sub>(a,a)表示;6)所述上下文关系图表示为G=&lt;V,E,S<sub>C</sub>&gt;。
地址 300072 天津市南开区卫津路92号