发明名称 |
无歧义日本人名列表构建方法、人名识别方法及装置 |
摘要 |
本发明公开了无歧义日本人名列表构建方法、人名识别方法及装置。构建列表的方法包括:利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表;将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合;将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合;针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。利用该列表进行分词和人名角色标注,能够提高中文分词的整体准确率、整体的人名角色标注性能以及最终的人名识别结果。 |
申请公布号 |
CN104424332A |
申请公布日期 |
2015.03.18 |
申请号 |
CN201310412289.3 |
申请日期 |
2013.09.11 |
申请人 |
富士通株式会社 |
发明人 |
宋双永;孟遥;郑仲光;于浩 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京集佳知识产权代理有限公司 11227 |
代理人 |
王萍;李春晖 |
主权项 |
一种构建无歧义日本人名相关词语列表的方法,所述方法包括:利用日本姓氏列表对日本常见人名列表进行姓名分离以得到日本名字列表;将带有日本人名相关标记的训练语料划分为日本人名相关词语集合和其他词语集合;将所述日本人名相关词语集合与所述日本常见人名列表、日本姓氏列表和从日本常见人名列表进行姓名分离而得到日本名字列表合并为日本人名相关词语总集合;针对日本人名相关词语总集合中的每一个日本人名相关词语判断该词语是否为无歧义日本人名相关词语以建立无歧义日本人名相关词语列表。 |
地址 |
日本神奈川县 |