发明名称 |
一种文档内容的提取方法和装置 |
摘要 |
本发明实施例公开了一种文档内容的提取方法和装置。所述方法包括:搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式,得到预处理文档;提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。本发明实施例解决了现有技术只能提取文档中的特定内容,无法适应于格式多样化的内容问题,通过对文档内容进行分析,充分识别并提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制,充分利用已有文档中的内容的目的。 |
申请公布号 |
CN106484663A |
申请公布日期 |
2017.03.08 |
申请号 |
CN201610890517.1 |
申请日期 |
2016.10.12 |
申请人 |
天闻数媒科技(湖南)有限公司 |
发明人 |
祝杰 |
分类号 |
G06F17/22(2006.01)I;G06F17/24(2006.01)I |
主分类号 |
G06F17/22(2006.01)I |
代理机构 |
北京品源专利代理有限公司 11332 |
代理人 |
孟金喆;胡彬 |
主权项 |
一种文档内容的提取方法,其特征在于,包括:搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式,得到预处理文档;提取所述预处理文档中的目标内容,并转换形成格式内容文件,给所述格式内容文件添加标签进行标注,从所述预处理文档中删除所述目标内容;提取处理后所述预处理文档中的剩余内容,保存为文本文件,与所述格式内容文件存储至所述初始文档对应的文件夹。 |
地址 |
410009 湖南省长沙市雨花区湘府东路二段99号汇财御景湾新寓11栋 |