发明名称 |
接续文章部分的媒体材料分析 |
摘要 |
本发明涉及用于对具有跨多个页面接续的文章的媒体材料进行分析的系统和方法。媒体材料分析器包括分段器和文章合成器。所述分段器标识与所述媒体材料中的分栏主体文本相关联的块分段。所述文章合成器基于语言统计信息和接续转换信息来确定所标识的块分段中的哪些属于跨所述媒体材料中的多个页面延伸的接续文章。 |
申请公布号 |
CN101573705A |
申请公布日期 |
2009.11.04 |
申请号 |
CN200780048905.4 |
申请日期 |
2007.11.05 |
申请人 |
谷歌公司 |
发明人 |
拉尔夫·富尔马尼亚克;雷·史密斯;卢克·文森特;丹·布鲁姆伯格 |
分类号 |
G06F17/00(2006.01)I |
主分类号 |
G06F17/00(2006.01)I |
代理机构 |
中原信达知识产权代理有限责任公司 |
代理人 |
张焕生;安 翔 |
主权项 |
1.一种用于分析表示媒体材料的数据的媒体材料分析器,所述媒体材料具有布局并包括跨多个页面延伸的一个或多个接续文章,所述媒体材料分析器包括:(a)分段器,标识与所述媒体材料页面中的分栏主体文本相关联的块分段;和(b)文章合成器,基于语言统计信息和接续转换信息来确定所标识的块分段中的哪些属于在所述媒体材料中跨多个页面延伸的接续文章。 |
地址 |
美国加利福尼亚州 |