发明名称 多语文档分离的方法和系统
摘要 本发明提供一种多语文档分离的方法和系统,其主要原理是:对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。通过本发明,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。
申请公布号 CN101996164A 申请公布日期 2011.03.30
申请号 CN201010285962.8 申请日期 2010.09.19
申请人 传神联合(北京)信息技术有限公司 发明人 赵国伟
分类号 G06F17/22(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 代理人
主权项 一种多语文档分离的方法,其特征在于,所述多语文档分离的方法包括:对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。
地址 100086 北京市海淀区青云里满庭芳园小区9号楼青云当代大厦十七层1707A1房间