发明名称 一种基于链接的双语平行网页识别方法及系统
摘要 本发明公开了一种基于链接的双语平行网页识别方法及系统,应用于双语网站中,该方法通过构建网页之间的连接关系,对不同语言的两个网页综合采用内部翻译相似度、外部翻译相似度、优化翻译相似度以及迭代优化翻译相似度的计算来对网页进行识别,最终识别出双语平行网页。本发明提供的该双语平行网页识别方法提出了网页的外部翻译相似度及其计算方法,对网页的翻译相似度进行了系统的分析研究,融合网页内部翻译相似度和外部翻译相似度提出了网页优化翻译相似度,并通过迭代算法,对网页外部翻译相似度和优化翻译相似度进行了更精准的估计,使得平行网页识别更加准确、通用性更强。
申请公布号 CN103646117A 申请公布日期 2014.03.19
申请号 CN201310737955.0 申请日期 2013.12.27
申请人 苏州大学 发明人 洪宇;严为绒;姚建民
分类号 G06F17/30(2006.01)I;G06F17/28(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京集佳知识产权代理有限公司 11227 代理人 常亮
主权项 一种基于链接的双语平行网页识别方法,其特征在于,该方法应用于双语网站中,包括:根据超链接构建网页之间的连接关系,形成一个网络,其中,所述网络中,节点为网页,边为网页之间的超链接;对所述网络中待识别的网页进行预处理,得到预处理后的网页;根据网页内部信息对任意两个不同语言的预处理后的网页进行内部翻译相似度的计算,得到两个网页的内部翻译相似度值;根据网页外部信息对内部翻译相似度较高的两个不同语言的网页进行外部翻译相似度的计算,得到两个网页的外部翻译相似度值;将所述内部翻译相似度值与外部翻译相似度值融合得到优化翻译相似度值,并迭代计算所述外部翻译相似度值和优化翻译相似度值,直到所述外部翻译相似度值或所述优化翻译相似度值达到稳定;根据最终得到的优化翻译相似度值识别出双语平行网页。
地址 215123 江苏省苏州市工业园区仁爱路199号