发明名称 一种语料结构化的方法及装置
摘要 本发明公开了一种语料结构化的方法及装置,应用于信息处理技术领域。该方法包括:获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。应用本发明提供的方法和装置将语料文件进行结构化,从而能够满足精确检索的要求。
申请公布号 CN102982036A 申请公布日期 2013.03.20
申请号 CN201110260373.9 申请日期 2011.09.05
申请人 北大方正集团有限公司;北京北大方正电子有限公司 发明人 李凯;翟因为;黄冶
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 北京同达信恒知识产权代理有限公司 11291 代理人 黄志华
主权项 一种语料结构化的方法,其特征在于,包括:获取待结构化语料对应的语料文件,根据语料文件中字符的字体属性信息在所述语料文件不同特定内容间添加分割标签生成中间文件;根据预设的自动结构化规则中字体属性信息与特定内容的对应关系,从所述中间文件中提取与所述特定内容对应的字符信息;根据所述自动结构化规则中不同特定内容的层次关系将提取的字符信息组合成结构化的语料文件后上传到服务器存储。
地址 100871 北京市海淀区成府路298号方正大厦9层