发明名称 一种基于语义信息的机构名抽取方法和装置
摘要 本发明公开了一种基于语义信息的机构名抽取方法和装置,该装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;该发明一种基于语义信息的机构名抽取方法和装置与现有技术相比,提出了基于语义信息的机构名抽取装置,并且提出了使用维基百科自动构建机构名词典的方法;使用了基于图的聚类算法进行词语聚类,并且使用词语的类别特征作为语义特征;改进了图聚类算法CW,解决了其存在的震荡问题;构建了包含大量未登录机构名的测试语料,该语料更具有说服力;而且本发明提出的装置与目前最好的开源工具相比,F1值提高了8%左右。
申请公布号 CN106250524A 申请公布日期 2016.12.21
申请号 CN201610634682.0 申请日期 2016.08.04
申请人 浪潮软件集团有限公司 发明人 毛立花;唐旋;崔乐乐
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 济南信达专利事务所有限公司 37100 代理人 刘继枝
主权项 一种基于语义信息的机构名抽取方法,其特征在于,方法步骤如下:第一步,从维基百科中自动抽取机构名,进行简称词典的构建,利用简称词典,形成机构名简称特征;第二步,从训练数据中,结合分词、词性标注和依存树特征,形成最终的特征;第三步,从维基百科文档中,进行正文提取、分词等预处理,使用CW聚类方法进行词语的聚类,使用词语的类别特征作为语义特征;第四步,基于CRF进行训练时,提取机构名简称特征和词语类别的语义特征,利用CRF算法对标注的训练数据生成机构名是别的CRF模型,进行算法的测试和评估,标注结果;第五步,对于未标注的数据,利用CRF识别进行算法的测试和评估,标注结果。
地址 250100 山东省济南市高新区孙村镇科航路2877号