发明名称 一种文本处理方法及系统
摘要 本发明公开了一种文本处理方法及系统,用以解决现有技术中文本处理的效率和准确性较低的问题。该方法文本处理系统对文本进行分词得到单元词,针对每个单元词,根据该单元词中的字以及该单元词确定该单元词的词性,并据此确定该单元词的实体词属性,根据每个单元词的实体词属性识别文本中的实体词,根据识别出的实体词对文本进行处理。通过上述方法,文本处理系统是以单元词为单位进行实体识别的,因此可以有效缩短采用CRF算法解码时的路径长度,提高实体识别的效率和准确性,从而提高了后续基于识别出的实体词进行文本处理的效率和准确性。
申请公布号 CN103176953B 申请公布日期 2016.02.24
申请号 CN201310090249.1 申请日期 2013.03.20
申请人 新浪网技术(中国)有限公司 发明人 戴明洋
分类号 G06F17/21(2006.01)I 主分类号 G06F17/21(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 黄志华
主权项 一种文本处理方法,其特征在于,包括:对文本进行分词处理,得到所述文本中的各单元词;针对每个单元词,以该单元词中的最后一个字的字类别作为该单元词的词类别;根据该单元词的词类别以及该单元词,通过预设的词性标注模型确定该单元词的词性,其中,所述词性标注模型是预先采用条件随机场CRF算法对标准语料进行学习得到的;根据该单元词的词性以及该单元词确定该单元词的实体词属性;根据每个单元词的实体词属性识别所述文本中的实体词;根据识别出的实体词对所述文本进行处理。
地址 100080 北京市海淀区北四环西路58号理想国际大厦20层