发明名称 一种基于文档类型的实体识别合作学算法
摘要 一种基于文档类型的实体识别合作学算法,算法包括:模型构建模块和模型应用。其中,模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建。模型应用包括文档类型识别和基于文档类型的实体识别。在本算法中结合了集成学和协同训练算法,同时在数据集预处理过程中进行了基于文档类型的数据集切分,考虑了数据集的多样性。在模型构建过程中,利用稀疏标记数据作为训练数据,并且应用了多个基础算法,以集成学模式对其进行集成,考虑了算法的多样性。结合了多种技术,考虑了算法和数据集的多样性,确保本发明在实体识别任务上能取得令人满意的效果。
申请公布号 CN104978587A 申请公布日期 2015.10.14
申请号 CN201510409514.7 申请日期 2015.07.13
申请人 北京工业大学 发明人 孙靖超;李建强;刘璐;赵旭;莫豪文;田猛
分类号 G06K9/62(2006.01)I;G06N5/02(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 北京思海天达知识产权代理有限公司 11203 代理人 沈波
主权项 一种基于文档类型的实体识别合作学习算法,其特征在于:该算法包括模型构建模块、模型应用以及模型集成;其中,模型构建模块包括基于文档类型的实体识别分类器构建和文本分类器构建;模型应用包括文档类型识别和基于文档类型的实体识别;模型集成包括两个层次的模型组合:(1)首先分类别对所构建的基础模型进行集成,即分别对所构建的基于文档类型的条件随机场模型,隐式马尔可夫模型以及最大熵马尔可夫模型三类基础模型进行模型内的集成,属于同类型模型的集成;(2)其次对所用的三类模型进行集成,即对已完成的模型内集成的上述三类模型进行模型间集成,属于不同类型模型的集成;对于三类基础模型进行模型内集成需要采用一种带有权值的多数投票策略。具体的,权值由每个基础模型的可信度来定义,而对于每个基础模型的可信度,采用对应输出句子的概率来度量,进而实现了同类型模型内的集成;对所用的三类模型进行模型间集成,采用不带权值的多数投票策略,即对基于文档类型所构建的三类不同的基础模型,在模型内集成完成后,进行模型间集成时认为它们之间的可信度时一样的,因此用不带权值的多数投票策略实现不同类型模型的集成。这样,完成了模型集成,构建出了基于文档类别的实体识别模型;更详细的,基于文档类型的实体识别分类器构建:包括五个子模块,首先是对输入数据的预处理模块,抽取稀疏标记的训练数据集中已标记的实体,构成一个字典,然后以该字典去更新每个训练文档;其次是基于文档类型的条件随机场模型构建,最大熵马尔可夫模型构建和隐式马尔可夫模型构建,主要是学习器的训练;最后的子模块是模型集成,将训练获得的基于文档类型的实体识别模型进行集成;文本分类器构建:主要是根据文档特征数据进行学习器训练,获得相应的文本分类模型;文档类型识别:主要是应构建的文本分类模型对待处理语料进行文本分类,以进行后续处理;基于文档类型的实体识别:主要是根据文档类型识别处理结果选择对应的基于文档类型的实体识别模型来进行文档标注工作。
地址 100124 北京市朝阳区平乐园100号