发明名称 一种生物医学事件的触发词标注系统及方法
摘要 本发明公开了一种生物医学事件的触发词标注系统及方法,该系统包括预处理模块、标注模型建立模块和标注模块。其中所述预处理模块用于获得训练样本和测试样本,包括分词单元、蛋白质分子识别单元、特征抽取单元和预标记单元。分词单元用于获取原始文本的单词序列,再由蛋白质分子识别单元识别出其中的蛋白质分子并加以替换为标准形式,更有利于特征抽取和触发词标注,特征抽取单元抽取单词的词形、词性等句法特征和语义特征,最后预标记单词序列作为训练和测试样本集。所述标注模型建立模块用于建立特征模板,生成特征函数,估计各特征函数所对应的权重,得到CRFs的触发词标注模型。标注模块对未知文本序列进行触发词标注,将得到结果显示在GUI界面。
申请公布号 CN105260361A 申请公布日期 2016.01.20
申请号 CN201510714177.2 申请日期 2015.10.28
申请人 南京邮电大学 发明人 龚乐君
分类号 G06F17/27(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 南京知识律师事务所 32207 代理人 汪旭东
主权项 一种生物医学事件的触发词标注系统,其特征在于,所述系统包括预处理模块、标注模型建立模块、标注模块;预处理模块:用于将原始文本分隔成单词的序列,从单词序列中识别出蛋白质分子,抽取每个单词的句法特征和语义特征,预标记单词序列,为训练和测试准备相应的训练样本集和测试样本集;标注模型建立模块:用于建立特征模板,生成序列的特征函数的集合,估计CRFs模型参数,建立CRFs触发词标注模型;标注模块:用于以训练得到的CRFs触发词标注模型为参数求待标记单词序列的联合概率,找到其最大值所对应的标记序列,即为标注结果。
地址 210023 江苏省南京市栖霞区文苑路9号