文本信息抽取方法和系统,申请号CN201110273322.X-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	文本信息抽取方法和系统
摘要	本发明实施例公开了一种文本信息抽取方法，实现从文本中抽取某种现象或某个事件产生的原因信息；其方法根据原因种子对对从互联网中采集的语句进行分析，生成原因句抽取模式，并利用依存关系和依存路径表示原因句的抽取模式，再基于该抽取模式来抽取原因信息，抽取过程大大减少了人工成本；且以抽取的原因句和非原因句作为训练样本，训练一个支持向量机分类器在未分类的语句中进一步识别原因句，从而提高了性能；本发明还公开了一种文本信息抽取系统，用于抽取文本中某种现象或某个事件产生的原因的信息。
申请公布号	CN102298642A	申请公布日期	2011.12.28
申请号	CN201110273322.X	申请日期	2011.09.15
申请人	苏州大学	发明人	李培峰;朱巧明;孔芳;周国栋;钱龙华
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	北京集佳知识产权代理有限公司 11227	代理人	逯长明
主权项	一种文本信息抽取方法，其特征在于，包括：设置第一检索条件，检索并选取第一候选网页，从所述第一候选网页中提取第一候选语句；所述第一候选网页与第一候选语句满足第一检索条件；根据第一候选语句生成第一句法树，并得到第一标注候选语句；根据第一句法树裁剪第一标注候选语句，生成裁剪依存树；把裁剪依存树分类为原因句依存树集合和非原因句依存树集合；根据第一句法树中的依存路径，合并原因句依存树集合中的裁剪依存树，生成原因句模式库；合并非原因句依存树集合中的依存树生成非原因句模式库；读取用户输入的需要抽取原因的现象的关键词，根据所述关键词与原因句模式库，设置第二检索条件，检索并选取第二候选网页，从所述第二候选网页中提取第二候选语句，所述第二候选网页与第二候选语句满足第二检索条件；根据第二候选语句，生成第二标注候选语句；裁剪第二标注候选语句，抽取候选原因结点，构造候选原因结点到现象结构的依存路径，并生成候选原因依存子树集合；从候选原因依存子树集合中抽取原因信息，添加到原因库中。
地址	215123 江苏省苏州市工业园区仁爱路199号

您可能感兴趣的专利

铅酸蓄电池及其生产方法

电子源与图象形成装置的制造方法,以及电子源制造装置

仪表开启检测装置

机织拉链的牙链

用短程蒸馏和转鼓蒸发器精制乳酸的方法

制备天然活性脱落酸的方法

码分多址移动通信系统中寻呼指示信道传输方法

从城市固体废物的纤维素成分中除去重金属并生产葡萄糖的方法

TAPE COMPOSITIONS FOR THE DEPOSITION OF ELECTRONIC FEATURES

A METHOD FOR CONTROLLING OPERATION OF A MOBILE DEVICE BY DETECTING USAGE SITUATIONS

Film-forming compositions for topical application

角化细胞生长因子的纯化方法

在移动电信系统中确认转发的目的号码

一种生物控制方法

保存冷冻箱中致冷流体的方法和设备

一种废丁基胶防水卷材的生产工艺

电设备中的电源电路

记录/重放装置及记录/重放方法

环脂肽物的脱酰化方法