发明名称 利用分词程序识别机构名称的装置及方法
摘要 本发明涉及网络数据通信技术领域,公开了利用分词程序识别机构名称的装置及方法。该装置包括:存储模块,适于进行数据存储;分词模块,适于利用词条词典将待识别句子进行分词,获取待识别句子中词条;识别模块,适于从分词所得词条中提取在词性词典中查找到的符合预设机构名称相关词性的词条,根据预设相关词性连接规则将提取的词条进行拼接,将拼接所得词条作为候选机构名称加入候选集合中,从候选集合中选择符合预设机构名称输出条件的词条;输出模块,适于将选择的词条作为机构名称进行输出。本发明能够解决实现从文本中提取机构名称的问题,取得了从文本中自动提取机构名称的有益效果。
申请公布号 CN105095391A 申请公布日期 2015.11.25
申请号 CN201510379024.7 申请日期 2015.06.30
申请人 北京奇虎科技有限公司;奇智软件(北京)有限公司 发明人 李月雷;王志青
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京市隆安律师事务所 11323 代理人 权鲜枝
主权项 一种利用分词程序识别机构名称的装置,该装置包括:存储模块,适于存储词条词典、词性词典、预设机构名称相关词性、预设相关词性连接规则和预设机构名称输出条件;分词模块,适于利用词条词典将待识别句子进行分词,获取待识别句子中词条;识别模块,适于从分词所得词条中提取在词性词典中查找到的符合预设机构名称相关词性的词条,根据预设相关词性连接规则将提取的词条进行拼接,将拼接所得词条作为候选机构名称加入候选集合中,从候选集合中选择符合预设机构名称输出条件的词条;输出模块,适于将从候选集合中选择的词条作为机构名称进行输出。
地址 100088 北京市西城区新街口外大街28号D座112室(德胜园区)