一种文本处理方法及系统,申请号CN201310090249.1-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种文本处理方法及系统
摘要	本发明公开了一种文本处理方法及系统，用以解决现有技术中文本处理的效率和准确性较低的问题。该方法文本处理系统对文本进行分词得到单元词，针对每个单元词，根据该单元词中的字以及该单元词确定该单元词的词性，并据此确定该单元词的实体词属性，根据每个单元词的实体词属性识别文本中的实体词，根据识别出的实体词对文本进行处理。通过上述方法，文本处理系统是以单元词为单位进行实体识别的，因此可以有效缩短采用CRF算法解码时的路径长度，提高实体识别的效率和准确性，从而提高了后续基于识别出的实体词进行文本处理的效率和准确性。
申请公布号	CN103176953B	申请公布日期	2016.02.24
申请号	CN201310090249.1	申请日期	2013.03.20
申请人	新浪网技术（中国）有限公司	发明人	戴明洋
分类号	G06F17/21(2006.01)I	主分类号	G06F17/21(2006.01)I
代理机构	北京同达信恒知识产权代理有限公司 11291	代理人	黄志华
主权项	一种文本处理方法，其特征在于，包括：对文本进行分词处理，得到所述文本中的各单元词；针对每个单元词，以该单元词中的最后一个字的字类别作为该单元词的词类别；根据该单元词的词类别以及该单元词，通过预设的词性标注模型确定该单元词的词性，其中，所述词性标注模型是预先采用条件随机场CRF算法对标准语料进行学习得到的；根据该单元词的词性以及该单元词确定该单元词的实体词属性；根据每个单元词的实体词属性识别所述文本中的实体词；根据识别出的实体词对所述文本进行处理。
地址	100080 北京市海淀区北四环西路58号理想国际大厦20层

您可能感兴趣的专利

SYRUP DISPENSER VALVE ASSEMBLY

HOPPER ASSEMBLY FOR SELECTIVELY RESTACKING BOTH INDIVIDUAL ORIGINALS AND FAN-FOLDED ORIGINALS RECEIVED FROM A DOCUMENT REPRODUCTION MACHINE

CONVENIENCE FOOD CONTAINER

METHOD OF CONTROLLING DRAWING IN HORIZONTAL CONTINUOUS CASTING

TREATMENT OF TOPICAL INFECTIONS

UNIVERSAL CUP HOLDER FOR USE IN VEHICLES

METHOD FOR PREPARING TAXANE DERIVATIVES, NOVEL DERIVATIVES THEREBY OBTAINED AND PHARMACEUTICAL COMPOSITIONS CONTAINING SAME

APPLICATION OF FUEL CELLS TO POWER GENERATION SYSTEMS

PHARMACEUTICALS

ANILIDE DERIVATIVE

NEW METHODS FOR THE CATALYTIC REDUCTION OF ORGANIC SUBSTRATES

RADIATION SOURCE FOR A PRINTER

A METHOD FOR IMAGING AN OBJECT AND A SYSTEM FOR CARRYING OUT THE METHOD

REFLECTIVE DISPLAY AND METHOD OF MANUFACTURE

FOAM-LIKE PHARMACEUTICAL COMPOSITION BASED ON ALGINIC ACID

A PEPTIDE WHICH REGULATES WEIGHT GAIN IN MAMMALS

HYDRAULIC DRIVING SYSTEM AND DIRECTION CHANGE-OVER VALVES

METHOD AND APPARATUS FOR TESTING LCD PANEL ARRAY

PROCESS FOR THE PREPARATION OF α-ALKYL LACTONES