发明名称 |
一种网络可比语料的挖掘方法及装置 |
摘要 |
本发明涉及网络可比语料的挖掘方法,包括:利用网络爬虫获取源语言网页,经预处理后形成源语言文档;分析源语言文档的跨语言主题的概率,产生对应的目标语言查询词;将目标语言查询词提交搜索引擎,选取前N的文档构成目标语言候选相似文档集;计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的文档构建可比语料库。本发明还公开了一种实施网络可比语料的挖掘方法的装置。本发明避免词汇翻译产生歧义或消耗大量时间;源语言文档源自于网络爬虫获取的特定网站内容,目标语言文档来自于整个互联网,有效提高对源语言文档的利用率;源语言和目标语言相似文档匹配通过主题分布的相似性实现,提高了语料库建设的准确度。 |
申请公布号 |
CN103473280A |
申请公布日期 |
2013.12.25 |
申请号 |
CN201310382010.1 |
申请日期 |
2013.08.28 |
申请人 |
中国科学院合肥物质科学研究院 |
发明人 |
李淼;朱泽德;张健;曾新华;陈雷;曾伟辉;郑守国;高会议;胡泽林;杨振新;陈晟;李华龙;董瀚琳;吴娜;卞程飞;翁士状 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
合肥天明专利事务所 34115 |
代理人 |
奚华保 |
主权项 |
一种网络可比语料的挖掘方法,该方法包括下列顺序的步骤:(1)利用网络爬虫获取源语言网页,经预处理后形成源语言文档;(2)根据已有的双语语料库构建跨语言主题模型,分析源语言文档的跨语言主题的概率,利用源语言文档主题信息产生对应的目标语言查询词;(3)将目标语言查询词提交搜索引擎,获取网络中的目标语言文档,选取前N的文档构成目标语言候选相似文档集;(4)分析目标语言候选相似文档的跨语言主题概率分布,根据主题概率分布的KL散度计算源语言文档和目标语言候选相似文档的相似度,筛选出相似度较高的源语言文档和目标语言候选相似文档构建可比语料库。 |
地址 |
230031 安徽省合肥市蜀山湖路350号 |