发明名称 一种文档内容的提取方法和装置
摘要 本发明实施例公开了一种文档内容的提取方法和装置。所述方法包括:搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式,得到预处理文档;提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。本发明实施例解决了现有技术只能提取文档中的特定内容,无法适应于格式多样化的内容问题,通过对文档内容进行分析,充分识别并提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制,充分利用已有文档中的内容的目的。
申请公布号 CN106484663A 申请公布日期 2017.03.08
申请号 CN201610890517.1 申请日期 2016.10.12
申请人 天闻数媒科技(湖南)有限公司 发明人 祝杰
分类号 G06F17/22(2006.01)I;G06F17/24(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京品源专利代理有限公司 11332 代理人 孟金喆;胡彬
主权项 一种文档内容的提取方法,其特征在于,包括:搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式,得到预处理文档;提取所述预处理文档中的目标内容,并转换形成格式内容文件,给所述格式内容文件添加标签进行标注,从所述预处理文档中删除所述目标内容;提取处理后所述预处理文档中的剩余内容,保存为文本文件,与所述格式内容文件存储至所述初始文档对应的文件夹。
地址 410009 湖南省长沙市雨花区湘府东路二段99号汇财御景湾新寓11栋