发明名称 局部项目提取
摘要 用于识别包含地址的文档并在文档中定位企业信息的系统。该系统向所述企业信息指定置信度得分,其中置信度得分与该企业信息同该地址相关联的概率有关。该系统根据指定的置信度得分确定是否把该企业信息与该地址相关联。
申请公布号 CN101128819B 申请公布日期 2011.06.22
申请号 CN200580048639.6 申请日期 2005.12.30
申请人 谷歌公司 发明人 迈克尔·丹尼斯·赖利
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 中原信达知识产权代理有限责任公司 11219 代理人 郑立;车文
主权项 一种用于识别与地址相关联的企业信息的方法,所述方法包括:识别包括地址的文档;分析在所述文档中所述地址前面的多个词语;确定所述多个词语中的每一个是与所述地址相关的名号的一部分的概率,其中所述多个词语中的每一个包括在名号中的概率通过统计模型来确定,所述统计模型通过分析与具有已知地址和相关联名号的多个文档相关联的特征而产生,以及根据所述多个词语中的一个或多个是与所述地址相关的名号的一部分的概率来识别候选名号;根据所述多个词语中的所述一个或多个与所述地址相关联的概率向所述候选名号指定置信度得分;以及根据所述置信度得分确定是否将所述候选名号与所述地址相关联。
地址 美国加利福尼亚州