发明名称 |
小样本自动化Web文本数据抽取模板生成与抽取方法 |
摘要 |
本发明公开了一种基于小样本的自动化Web文本数据抽取模板生成与抽取方法,包括如下步骤:选取一组文本数据样本,该文本数据样本包括多条文本记录;确定比对的单元:利用分隔符切分所述文本记录,使得所述文本记录成为分隔符和单词间隔的序列,该序列称为原始文本序列;在所述原始文本序列中找到一个与其它原始文本序列相似度最高的序列,称为核心序列;将每条原始文本序列以所述核心序列为标准,逐一对齐到一起,形成一组由多个对齐的数据栏衔接而成的对齐文本序列;对每个数据栏计算信息熵,用信息熵识别出该数据栏是模板字段栏或数据字段栏,由此得出模板;利用所述模板完成文本数据的抽取。本发明能自动完成细粒度的文本数据的抽取处理。 |
申请公布号 |
CN102929930A |
申请公布日期 |
2013.02.13 |
申请号 |
CN201210357757.7 |
申请日期 |
2012.09.24 |
申请人 |
南京大学 |
发明人 |
黄宜华;袁春风;刘玉龙;施生生 |
分类号 |
G06F17/30(2006.01)I;G06F17/27(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
南京苏高专利商标事务所(普通合伙) 32204 |
代理人 |
夏雪 |
主权项 |
一种小样本自动化Web文本数据抽取模板生成与抽取方法,包括如下步骤:(1)选取一组文本数据样本,该文本数据样本包括多条文本记录;(2)确定比对的单元:利用分隔符切分所述文本记录,使得所述文本记录成为分隔符和单词间隔的序列,该序列称为原始文本序列,所述单元有两种类型:分隔符和单词;(3)在所述原始文本序列中找到一个与其它原始文本序列相似度最高的序列,称为核心序列;(4)将每条原始文本序列以所述核心序列为标准,逐一对齐到一起,形成一组由多个对齐的数据栏衔接而成的对齐文本序列;(5)对每个数据栏计算信息熵,用信息熵识别出该数据栏是模板字段栏或数据字段栏,由此得出模板;(6)利用所述模板完成文本数据的抽取。 |
地址 |
210093 江苏省南京市栖霞区仙林大道163号 |