发明名称 从多语言网站构建多语言的对象层次结构的方法和系统
摘要 本发明提出了从多语言网站构建多语言的对象层次结构的方法和系统。本发明的方法包括:输入一多语言网站中的所有网页;按不同语言将网站拆分成多个子网站,每个子网站中的网页具有相同语言;抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;确定不同子网站中的不同语言网页之间的平行关系;以及根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于该多语言网站的多语言对象层次结构。相对于现有技术,本发明可以大大提高多语言层次结构抽取效率、结果准确性以及可扩展性。
申请公布号 CN101840402B 申请公布日期 2014.05.07
申请号 CN200910119016.3 申请日期 2009.03.18
申请人 日电(中国)有限公司 发明人 赵彧;李建强
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京东方亿思知识产权代理有限责任公司 11258 代理人 李晓冬;南霆
主权项 一种从多语言网站中抽取多语言的对象层次结构的方法,包括:输入一多语言网站中的网页;按不同语言将所述网站拆分成多个子网站,每个子网站中的网页具有相同语言;抽取对应于每个子网站的单语言对象层次结构,并记录对象与相应网页之间的对应关系;确定不同子网站中的不同语言网页之间的平行关系;以及为每个网页生成一网页块集合;根据抽取出的每个子网站的单语言对象层次结构、对象与网页之间的对应关系、以及所确定的不同语言的网页之间的平行关系,来生成对应于所述多语言网站的多语言对象层次结构;其中所述确定不同语言网页之间的平行关系的步骤包括:根据所述网站的Web目录结构来确定第一平行关系结果;根据不同语言网页的DOM结构的相似性来确定第二平行关系结果;根据不同语言网页的网页块集合的相似性来确定第三平行关系结果;以及根据预先确定的对应于不同分析方法的权重值在所述第一、第二和第三平行关系结果之间进行协调,以综合确定不同语言网页之间的平行关系。
地址 100007 北京市东城区东四十条甲22号南新仓国际大厦B座12层1222室