发明名称 中文企业名称的识别方法
摘要 一种中文企业名称的识别方法,包括以下步骤:建立企业名称知识库和企业名称概率知识库,企业名称知识库中包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,企业名称概率知识库中包括企业名称左邻词概率知识和企业名称左邻词概率知识;扫描文本,对文本进行分词;分别完成以地名饰名开头的企业名称识别和无地名饰名开头的企业名称识别。利用本发明所述的中文企业名称的识别方法可以加快文档识别中的速度,且提高了企业名称识别的准确率。
申请公布号 CN105320645A 申请公布日期 2016.02.10
申请号 CN201510614480.5 申请日期 2015.09.24
申请人 天津海量信息技术有限公司 发明人 宋传宝;史墨轩;郝静
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 天津市尚仪知识产权代理事务所(普通合伙) 12217 代理人 王山
主权项 一种中文企业名称的识别方法,包括以下步骤:A、建立企业名称知识库,包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,各词集分别对应包括地名词汇、企业同名词汇、行业饰名词汇和企业专名禁止词汇;B、建立企业名称概率知识库,包括单个汉字组成企业专名的概率知识;C、扫描文本,对文本进行中文分词;D、当文本扫描中出现地名词汇时,继续扫描其后面的词,若在2‑5个汉字以后出现行业饰名词汇且行业饰名后面紧邻出现企业通名词汇时,触发企业名称识别;E、判断上述地名词汇和行业饰名词汇之间的汉字是否包含企业专名禁止词汇,如果包含则终止识别,不包含则汇总计算这些汉字构成企业专名的概率,形成专名概率加权计算结果;F、判断专名概率加权结果是否大于阈值,大于阈值则认定当前从地名到最后的企业通名之间的整个中文片段为中文企业名,小于则终止识别;G、识别结果组织输出为“以地名饰名开头的企业名称”。
地址 300000 天津市和平区南马路11号麦购国际大厦23层