发明名称 |
确定文档中核心地理信息的方法、系统 |
摘要 |
本发明公开了一种确定文档中核心地理信息的方法、系统。一种确定文档中核心地理信息的方法实施例,包括:按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;根据预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息。利用本发明,可以更准确的确定文档内容中的核心地理信息。 |
申请公布号 |
CN101661461B |
申请公布日期 |
2016.01.13 |
申请号 |
CN200810135525.0 |
申请日期 |
2008.08.29 |
申请人 |
阿里巴巴集团控股有限公司 |
发明人 |
雷国平;李晓拴;马娜;刘维佳;陈传文;王名悠;周洪喜;王暄 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
逯长明 |
主权项 |
一种确定文档中核心地理信息的方法,其特征在于,包括:读取待处理文档,统计待处理文档中出现的各地理名词的频率,按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值;根据各地理名词查询预置的地理信息库,计算所述各地理名词隶属的级别相同的行政区划的分值;所述地理信息库中存储有地理名称以及所有地理名称间的隶属关系;比较所述行政区划的分值,以及比较各地理名词的分值,将分值最高的所述行政区划下分值最高的地理信息确定为所述文档的核心地理信息;其中,所述按照文档中各地理名词出现的频率,并根据预定义的位置权重计算各地理名词的分值,包括:将文档各地理信息的分值确定为该地理信息出现频率数与按照出现位置对应权重之和。 |
地址 |
英属开曼群岛大开曼岛资本大厦一座四层847号邮箱 |