发明名称 |
一种从文本数据中提取中文命名实体的方法 |
摘要 |
本发明公开了一种从文本数据中提取中文命名实体的方法,该方法包括以下步骤:中文词语切分;中文停用词去除;分析中文分词结果中命名实体错误类型及原因;针对错误类型及原因分别制定修正规则;根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集;该发明方法提高命名实体提取准确率,并且能保证提取效率;适用于网络信息处理、网络数据挖掘及信息安全等领域,可以为后期的各种处理提供良好的预处理基础。 |
申请公布号 |
CN101719122A |
申请公布日期 |
2010.06.02 |
申请号 |
CN200910227302.1 |
申请日期 |
2009.12.04 |
申请人 |
中国人民解放军信息工程大学 |
发明人 |
李弼程;张先飞;刘路;陈刚;郭志刚 |
分类号 |
G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
|
代理人 |
|
主权项 |
一种从文本数据中提取中文命名实体的方法,其特征在于,该方法包括以下步骤:a.中文词语切分;b.中文停用词去除;c.分析中文分词结果中命名实体错误类型及原因;d.针对错误类型及原因分别制定修正规则;e.根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;f.根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集。 |
地址 |
450002 河南省郑州市信息学院路1号 |