一种基于语义信息的机构名抽取方法和装置,申请号CN201610634682.0-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于语义信息的机构名抽取方法和装置
摘要	本发明公开了一种基于语义信息的机构名抽取方法和装置，该装置包括简称词典构建模块、词语聚类模块、CRF训练模块和CRF识别模块4个模块；该发明一种基于语义信息的机构名抽取方法和装置与现有技术相比，提出了基于语义信息的机构名抽取装置，并且提出了使用维基百科自动构建机构名词典的方法；使用了基于图的聚类算法进行词语聚类，并且使用词语的类别特征作为语义特征；改进了图聚类算法CW，解决了其存在的震荡问题；构建了包含大量未登录机构名的测试语料，该语料更具有说服力；而且本发明提出的装置与目前最好的开源工具相比，F1值提高了8%左右。
申请公布号	CN106250524A	申请公布日期	2016.12.21
申请号	CN201610634682.0	申请日期	2016.08.04
申请人	浪潮软件集团有限公司	发明人	毛立花;唐旋;崔乐乐
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	济南信达专利事务所有限公司 37100	代理人	刘继枝
主权项	一种基于语义信息的机构名抽取方法，其特征在于,方法步骤如下：第一步，从维基百科中自动抽取机构名，进行简称词典的构建，利用简称词典，形成机构名简称特征；第二步，从训练数据中，结合分词、词性标注和依存树特征，形成最终的特征；第三步，从维基百科文档中，进行正文提取、分词等预处理，使用CW聚类方法进行词语的聚类，使用词语的类别特征作为语义特征；第四步，基于CRF进行训练时，提取机构名简称特征和词语类别的语义特征，利用CRF算法对标注的训练数据生成机构名是别的CRF模型，进行算法的测试和评估，标注结果；第五步，对于未标注的数据，利用CRF识别进行算法的测试和评估，标注结果。
地址	250100 山东省济南市高新区孙村镇科航路2877号

您可能感兴趣的专利

METHOD AND APPARATUS FOR INJECTING SLUDGE INTO A KILN

DRY ANALYTICAL ELEMENT FOR ACETAMINOPHEN ASSAY

Modulasjons-feilreduksjon i fiberoptisk gyroskop

AIR INTAKE VALVE ARRANGEMENT STRUCTURE FOR ENGINE

ADAPTIVE QUANTIZATION CODER/DECODER WITH LIMITER CIRCUITRY

LOW PRESSURE NON-FRAGMENTING RUPTURE DISKS

LIQUID COATING COMPOSITION CURABLE AT AMBIENT TEMPERATURES

SYNTHETIC HECTORITE COATED FLEXIBLE FILM

HIGH TEMPERATURE HEAT EXCHANGER OF STIRLING ENGINE

METHOD OF ATTACHING FASTENER ELEMENTS TO FASTENER TAPE

PREPARATION OF STYRENE POLYMER

ARTIFICIAL TRANSPLANTATION PIECE AND METHOD OF FORMING IT

PROCESSING METHOD FOR THIN FILM HAVING ELECTRICAL CONDUCTIVITY AND/OR INFRARED RAY REFLEXIBILITY

COOLING SYSTEM FOR HEAT INSULATING ENGINE

FOIL PACK FOR PAPER TISSUES

USE OF 1,1,1,4,4,4-HEXAFLUOROBUTANE AS A BLOWING AND INSULATING GAS FOR THE PRODUCTION OF FOAM PLASTICS

MULTI FUNCTION STEERING MECHANISM

ELECTROPHOTOGRAPHIC SENSITIVE MATERIAL

CENTRIFUGAL FAN