发明名称 一种从文本数据中提取中文命名实体的方法
摘要 本发明公开了一种从文本数据中提取中文命名实体的方法,该方法包括以下步骤:中文词语切分;中文停用词去除;分析中文分词结果中命名实体错误类型及原因;针对错误类型及原因分别制定修正规则;根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集;该发明方法提高命名实体提取准确率,并且能保证提取效率;适用于网络信息处理、网络数据挖掘及信息安全等领域,可以为后期的各种处理提供良好的预处理基础。
申请公布号 CN101719122A 申请公布日期 2010.06.02
申请号 CN200910227302.1 申请日期 2009.12.04
申请人 中国人民解放军信息工程大学 发明人 李弼程;张先飞;刘路;陈刚;郭志刚
分类号 G06F17/27(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/27(2006.01)I
代理机构 代理人
主权项 一种从文本数据中提取中文命名实体的方法,其特征在于,该方法包括以下步骤:a.中文词语切分;b.中文停用词去除;c.分析中文分词结果中命名实体错误类型及原因;d.针对错误类型及原因分别制定修正规则;e.根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;f.根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集。
地址 450002 河南省郑州市信息学院路1号