发明名称 | 对齐分层和顺序文档树以标识并行数据 | ||
摘要 | 基于从给定的网络位置(如网站)下载的一个或多个页面中的触发单词标识一组候选的并行页面。对齐表示候选页面的每一个的一组文档树来标识翻译上并行的内容和超链接。该并行内容进一步被馈送到常规的句子对齐器以得到并行句子。并且该并行超链接通常引用其它并行文档,并导致对并行文档的递归挖掘。 | ||
申请公布号 | CN101490666A | 申请公布日期 | 2009.07.22 |
申请号 | CN200780026359.4 | 申请日期 | 2007.06.28 |
申请人 | 微软公司 | 发明人 | M·周;C·牛;L·施 |
分类号 | G06F17/00(2006.01)I | 主分类号 | G06F17/00(2006.01)I |
代理机构 | 上海专利商标事务所有限公司 | 代理人 | 陈 斌 |
主权项 | 1. 一种从可通过网络(104)访问的一个或多个较大语料库(102)中标识并行的双语语料库的方法,包括:选择第一语言的第一数据子集和第二语言的第二数据子集(140);获得对应于所述第一和第二数据子集的每一个的树结构(230)(147),每一树结构(230)都具有表示所述对应的数据子集的分层地和顺序地安排的节点(202-236);根据分层地和顺序地不变的对齐来对齐所述对应于所述数据子集的每一个的树结构(230)(148);基于所述树结构(230)的对齐(148)来标识所述数据子集的并行文本片段(150)(148);以及输出所述并行文本片段(150)的指示(154)。 | ||
地址 | 美国华盛顿州 |