基于神经网络的中文比较句识别方法及装置,申请号CN201410264137.8-传众专利搜索

发明名称	基于神经网络的中文比较句识别方法及装置
摘要	本发明涉及一种基于神经网络的中文比较句识别方法及装置，包括以下步骤：首先对语料及其分词结果进行规范化处理，然后通过基于比较特征词词典与句法结构模板、依存关系相结合的方法进行粗粒度提取；最后设计一种类别序列规则(CSR)提取算法，并利用CRF挖掘实体对象信息即语义角色信息，辅以比较特征词与统计词特征，利用这四种特征构造BP神经网络，找到使性能达到最优的特征形式完成细粒度提取。对比现有技术，本发明能够有效利用不同层级语义信息进行识别，使用户能够更快速而且准确地找到语料中置信度较高的中文比较句，提高中文比较句的识别率。
申请公布号	CN104021115A	申请公布日期	2014.09.03
申请号	CN201410264137.8	申请日期	2014.06.13
申请人	北京理工大学	发明人	冯冲;廖纯;张辰;杨森
分类号	G06F17/27(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构		代理人
主权项	一种基于神经网络的中文比较句识别方法，其特征在于规则与统计相结合，充分考虑了语义句法信息，包括以下步骤：步骤1：对语料进行预处理，包括如下过程：对语料集S的每一个句子进行分词、句法结构分析、依存关系分析和词性标注、语义角色标注；步骤2：进行句法结构模板抽取，过程如下：将S中每一个句子的句法结构分析树与句法结构模板进行匹配，如果匹配成功，则判断其属于显性比较句，本步骤中提取得到的显性比较句的结果记为集合A；步骤3：进行依存关系相似度计算，过程如下：将步骤二中抽取之后的剩余语料集S‑A中的每一个句子进行依存关系相似度计算，得到相似度s，并将s与预设的阈值v进行比较，如果s>＝v，则判断其属于隐性比较句；否则，判断其属于非比较句；本步骤中提取得到的隐性比较句的结果记为集合B，非比较句的结果记为集合D；步骤4：利用经训练的BP神经网络进行分类，过程如下：将集合A和集合B作为粗粒度提取结果置于经过训练的BP神经网络中进行细粒度提取，得到比较句集合C和非比较句集合E，BP神经网络的训练特征为：类别序列规则(Class Sequential Rules，CSR)、语义角色标注(Semantic Role Labeling，SRL)、比较特征词(Keyword)以及统计词特征(Statistical Word Feature，SWF)这四种；步骤4：识别完成：输出识别结果比较句集合C和非比较句集合D+E。
地址	100081 北京市海淀区中关村南大街5号北京理工大学