发明名称 基于神经网络的中文比较句识别方法及装置
摘要 本发明涉及一种基于神经网络的中文比较句识别方法及装置,包括以下步骤:首先对语料及其分词结果进行规范化处理,然后通过基于比较特征词词典与句法结构模板、依存关系相结合的方法进行粗粒度提取;最后设计一种类别序列规则(CSR)提取算法,并利用CRF挖掘实体对象信息即语义角色信息,辅以比较特征词与统计词特征,利用这四种特征构造BP神经网络,找到使性能达到最优的特征形式完成细粒度提取。对比现有技术,本发明能够有效利用不同层级语义信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的中文比较句,提高中文比较句的识别率。
申请公布号 CN104021115A 申请公布日期 2014.09.03
申请号 CN201410264137.8 申请日期 2014.06.13
申请人 北京理工大学 发明人 冯冲;廖纯;张辰;杨森
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 一种基于神经网络的中文比较句识别方法,其特征在于规则与统计相结合,充分考虑了语义句法信息,包括以下步骤: 步骤1:对语料进行预处理,包括如下过程:对语料集S的每一个句子进行分词、句法结构分析、依存关系分析和词性标注、语义角色标注; 步骤2:进行句法结构模板抽取,过程如下:将S中每一个句子的句法结构分析树与句法结构模板进行匹配,如果匹配成功,则判断其属于显性比较句,本步骤中提取得到的显性比较句的结果记为集合A; 步骤3:进行依存关系相似度计算,过程如下:将步骤二中抽取之后的剩余语料集S‑A中的每一个句子进行依存关系相似度计算,得到相似度s,并将s与预设的阈值v进行比较,如果s>=v,则判断其属于隐性比较句;否则,判断其属于非比较句;本步骤中提取得到的隐性比较句的结果记为集合B,非比较句的结果记为集合D; 步骤4:利用经训练的BP神经网络进行分类,过程如下:将集合A和集合B作为粗粒度提取结果置于经过训练的BP神经网络中进行细粒度提取,得到比较句集合C和非比较句集合E,BP神经网络的训练特征为:类别序列规则(Class Sequential Rules,CSR)、语义角色标注(Semantic Role Labeling,SRL)、比较特征词(Keyword)以及统计词特征(Statistical Word Feature,SWF)这四种; 步骤4:识别完成:输出识别结果比较句集合C和非比较句集合D+E。 
地址 100081 北京市海淀区中关村南大街5号北京理工大学