发明名称 |
一种基于语义信息的机构名抽取方法和装置 |
摘要 |
本发明公开了一种基于语义信息的机构名抽取方法和装置,该装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块;该发明一种基于语义信息的机构名抽取方法和装置与现有技术相比,提出了基于语义信息的机构名抽取装置,并且提出了使用维基百科自动构建机构名词典的方法;使用了基于图的聚类算法进行词语聚类,并且使用词语的类别特征作为语义特征;改进了图聚类算法CW,解决了其存在的震荡问题;构建了包含大量未登录机构名的测试语料,该语料更具有说服力;而且本发明提出的装置与目前最好的开源工具相比,F1值提高了8%左右。 |
申请公布号 |
CN106250524A |
申请公布日期 |
2016.12.21 |
申请号 |
CN201610634682.0 |
申请日期 |
2016.08.04 |
申请人 |
浪潮软件集团有限公司 |
发明人 |
毛立花;唐旋;崔乐乐 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
济南信达专利事务所有限公司 37100 |
代理人 |
刘继枝 |
主权项 |
一种基于语义信息的机构名抽取方法,其特征在于,方法步骤如下:第一步,从维基百科中自动抽取机构名,进行简称词典的构建,利用简称词典,形成机构名简称特征;第二步,从训练数据中,结合分词、词性标注和依存树特征,形成最终的特征;第三步,从维基百科文档中,进行正文提取、分词等预处理,使用CW聚类方法进行词语的聚类,使用词语的类别特征作为语义特征;第四步,基于CRF进行训练时,提取机构名简称特征和词语类别的语义特征,利用CRF算法对标注的训练数据生成机构名是别的CRF模型,进行算法的测试和评估,标注结果;第五步,对于未标注的数据,利用CRF识别进行算法的测试和评估,标注结果。 |
地址 |
250100 山东省济南市高新区孙村镇科航路2877号 |