发明名称 一种地理信息领域的关键字提取的方法及装置
摘要 本发明提供一种地理信息领域的关键字提取的方法及装置,属于电数字数据处理技术领域,该方法包括:步骤1、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理;步骤2、以分词得到的短语为最小粒度单元,并结合N-gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字;步骤3、根据候选关键字的类型,将候选关键字记录到与类型对应的数据词典中。将中文分词与N-gram模型相结合的关键字的提取方法,保存并充分利用历史处理过程中的数据,能兼顾地理信息领域中关键字提取的效率和准确率。
申请公布号 CN102375863A 申请公布日期 2012.03.14
申请号 CN201010265879.4 申请日期 2010.08.27
申请人 北京四维图新科技股份有限公司 发明人 陈小宾;申排伟;杜宇程
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京银龙知识产权代理有限公司 11243 代理人 许静
主权项 一种地理信息领域的关键字提取的方法,其特征在于,所述提取方法包括:步骤1、利用中文分词工具对地理信息数据库中的待处理数据进行分词处理;步骤2、以分词得到的短语为最小粒度单元,并结合N‑gram模型获取长度不超过预设的关键字最大长度值的所有候选关键字;步骤3、根据所述候选关键字的类型,将所述候选关键字记录到与所述类型对应的数据词典中。
地址 100028 北京市朝阳区曙光西里甲5号凤凰置地广场A座写字楼16层