发明名称 |
中文地址分词标注方法 |
摘要 |
本发明涉及一种中文地址分词标注方法。该方法包括:步骤11、人工分词标注挑选出的地址数据作为训练数据;步骤12、对出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以指定的单个阿拉伯数字字符或英文字母字符替换;步骤13、训练数据转换成CRF++工具需要的格式;步骤14、定义特征模板;步骤15、使用CRF++工具分别建立分词模型和标注模型;步骤16、地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该指定的单个阿拉伯数字字符或英文字母字符替换;步骤17、用CRF++工具分词标注;步骤18、还原替换前的阿拉伯数字字符或英文字母字符。本发明的中文地址分词标注方法的准确率高。 |
申请公布号 |
CN104933023A |
申请公布日期 |
2015.09.23 |
申请号 |
CN201510239133.9 |
申请日期 |
2015.05.12 |
申请人 |
深圳市华傲数据技术有限公司 |
发明人 |
王明兴;贾西贝 |
分类号 |
G06F17/27(2006.01)I |
主分类号 |
G06F17/27(2006.01)I |
代理机构 |
深圳市华优知识产权代理事务所(普通合伙) 44319 |
代理人 |
余薇 |
主权项 |
一种中文地址分词标注方法,其特征在于,包括:步骤11、对挑选出的地址数据进行人工分词标注,以作为训练数据;步骤12、对于该训练数据或挑选出的地址数据中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以预先唯一指定的单个阿拉伯数字字符或英文字母字符替换;步骤13、采用分词标签和标注标签分别将该训练数据转换成CRF++工具所需要的格式;步骤14、定义特征模板;步骤15、使用CRF++工具分别建立分词模型和标注模型;步骤16、对于欲分词标注的地址中出现的单个阿拉伯数字字符或英文字母字符以及多个连续阿拉伯数字字符或英文字母字符,以该预先唯一指定的单个阿拉伯数字字符或英文字母字符替换,同时保存替换前的阿拉伯数字字符或英文字母字符;步骤17、然后使用CRF++工具对欲分词标注的地址进行分词标注;步骤18、在分词标注结果中还原替换前的阿拉伯数字字符或英文字母字符。 |
地址 |
518057 广东省深圳市南山区高新区中区高新中一道9号软件大厦7层713、715、716室 |