发明名称 用于字序列处理的方法和系统
摘要 一种命名实体识别的方法和系统。一种方法其组成为:选择一个或多个进行人工标识的样本,其中各样本由包含命名实体及其上下文的字序列组成,以及基于将标识过的样本作为训练数据来对命名实体模型进行再训练。
申请公布号 CN1977261B 申请公布日期 2010.05.05
申请号 CN200580017414.4 申请日期 2005.05.28
申请人 新加坡科技研究局 发明人 苏俭;沈丹;张捷;周国栋
分类号 G06F17/28(2006.01)I;G06F15/18(2006.01)I 主分类号 G06F17/28(2006.01)I
代理机构 北京安信方达知识产权代理有限公司 11262 代理人 霍育栋;郑霞
主权项 一种用于字序列处理任务的方法,该方法包括:从尚未标识的数据集中选择一个或多个进行人工标记的样本,各样本由包含命名实体及其上下文的字序列组成;以及基于将标定样本作为训练数据对命名实体识别模型进行再训练;选择是基于由信息性标准、典型性标准以及多样性标准组成的组中的至少两个标准;其中信息性标准表示:当每个样本添加进训练集时,每个样本对用于命名实体识别的支持向量产生的影响;典型性标准表示:每个样本与尚未标识的数据集中的其他字序列的相似性;多样性标准表示:每个样本相对于尚未标识的数据集中其他字序列的差异性。
地址 新加坡新加坡