发明名称 |
一种用于语言材料的数据识别与提取方法 |
摘要 |
本发明公开了一种用于语言材料的数据识别与提取方法,包括:根据原始数据文件中的内容对应的计算机字符编码,将组成所述内容的数据单元进行第一次转换处理,生成预处理数据单元;根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系,将所述预处理数据单元进行第二次转换处理,生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元;对所述规范化的数据单元进行提取。本发明的方法操作简单、运算速度快。 |
申请公布号 |
CN104462032A |
申请公布日期 |
2015.03.25 |
申请号 |
CN201410829863.X |
申请日期 |
2014.12.26 |
申请人 |
南通大学 |
发明人 |
李冬;庄勋;李漓 |
分类号 |
G06F17/22(2006.01)I;G06F17/27(2006.01)I;G06F17/30(2006.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
北京商专永信知识产权代理事务所(普通合伙) 11400 |
代理人 |
高之波;邬玥 |
主权项 |
一种用于语言材料的数据识别与提取方法,包括:(1)根据原始数据文件中的内容对应的计算机字符编码,将组成所述内容的数据单元进行第一次转换处理,生成预处理数据单元;(2)根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系,将所述预处理数据单元进行第二次转换处理,生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元;(3)对所述规范化的数据单元进行提取。 |
地址 |
226000 江苏省南通市崇川区啬园路9号 |