发明名称 互联网新闻文本之间的转载关系识别方法
摘要 本发明提供了一种互联网新闻文本之间的转载关系识别方法,用于鉴别互联网上的新闻网页之间的转载关系。该方法首先利用统计算法提取网页中的正文内容,过滤掉广告及导航等噪声信息,同时完成新词自动识别,并挖掘新闻文本的特征词,以完成转载关系初步识别;在初识别的基础上,利用核函数方法计算新闻文本之间的相似程度,以进一步确定新闻文本之间的转载关系,并可获取该新闻的最初发布站点。
申请公布号 CN102651012A 申请公布日期 2012.08.29
申请号 CN201210060753.2 申请日期 2012.03.09
申请人 华中科技大学 发明人 王君泽;黄本雄;刘冬一;胡广;温杰;刘玮文
分类号 G06F17/30(2006.01)I;G06F17/27(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市德权律师事务所 11302 代理人 周发军
主权项 一种互联网新闻文本之间的转载关系识别方法,其特征在于,包括以下步骤:网页预处理步骤:去除新闻网页中包括导航、广告、版权的噪声信息,得到新闻正文的文本内容;基于关键词提取的转载关系的初识别步骤:从所述网页预处理步骤得到的新闻文本中提取反映文本特征的关键词;通过所述关键词比对,得到所述新闻文本之间的初步转载关系;基于核函数相似度的转载关系的终识别步骤:针对所述基于关键词提取的转载关系的初识别步骤得到的具有所述初步转载关系,基于核函数相似度计算具有所述初步转载关系的新闻文本之间的相似度,得到所述新闻文本之间的最终转载关系。
地址 430074 湖北省武汉市洪山区珞喻路1037号