发明名称 |
一种版式文档处理方法及装置 |
摘要 |
本发明提供的版式文档处理方法及装置,该方法包括首先对版式文档进行分割,并获取每个文本分割块的描述信息,然后将文本分割块进行聚类,合并同类的文本分割块根据聚类后的文本分割块对应的所述描述信息构建描述文件,将所述描述文件内嵌到版式文档中,建立内嵌字描述信息;将版式文档的原路径描述信息替换为所述内嵌字描述信息。该方案压缩了文档中使用不同参数描述同一形态路径时产生的数据量,实现路径去重,路径描述信息可以大大简化,避免了现有技术中对于相同的内容也需要重复描述,路径结构复杂、参数繁多的缺陷,大大减少了版式文档中所包含的数据量,优化了版式文档的文档结构。 |
申请公布号 |
CN105404683A |
申请公布日期 |
2016.03.16 |
申请号 |
CN201510857430.X |
申请日期 |
2015.11.30 |
申请人 |
北大方正集团有限公司;北京方正阿帕比技术有限公司 |
发明人 |
徐剑波;岳铁铸;任仁 |
分类号 |
G06F17/30(2006.01)I;G06F17/22(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京三聚阳光知识产权代理有限公司 11250 |
代理人 |
马永芬 |
主权项 |
一种版式文档处理方法,其特征在于,包括如下步骤:对所述版式文档进行分割,提取分割后的每个文本分割块的坐标信息;针对每个文本分割块,根据所述坐标信息查找其对应的版式文档的描述信息;将所述文本分割块进行聚类,合并同类的文本分割块;根据聚类后的文本分割块对应的所述描述信息构建描述文件,将所述描述文件内嵌到版式文档中,建立内嵌字描述信息;将版式文档中原来的路径描述信息替换为所述内嵌字描述信息。 |
地址 |
100871 北京市海淀区成府路298号方正大厦9层 |