发明名称 |
提取文档中内容的方法和装置 |
摘要 |
本发明提供了一种提取文档中内容的方法和装置,本发明的方法包括:遍历多个正则表达式以匹配试题文档中的字符;匹配到与当前所述正则表达式中的字符串相同的字符后,提取所述字符之后至与下一个所述正则表达式中字符串相匹配的字符之前的字符;存储所述提取的字符和所述当前正则表达式相对应类别的信息。可快速将试题类文档结构化,并提取各部分内容存入数据库中。从而便于试题类文档的后续的修改、试题产品的制作等。提高了试题的再利用率,结构化的数据采用XML格式,在不改变原有文件内容的情况下,打破了以往按照固定结构进行数据录入的模式。 |
申请公布号 |
CN102982027A |
申请公布日期 |
2013.03.20 |
申请号 |
CN201110259119.7 |
申请日期 |
2011.09.02 |
申请人 |
北大方正集团有限公司;北京北大方正电子有限公司 |
发明人 |
宋娟;李少明;翟因为 |
分类号 |
G06F17/30(2006.01)I |
主分类号 |
G06F17/30(2006.01)I |
代理机构 |
北京英赛嘉华知识产权代理有限责任公司 11204 |
代理人 |
王达佐 |
主权项 |
一种提取文档中内容的方法,其特征在于,包括:遍历多个正则表达式以匹配试题文档中的字符;匹配到与当前所述正则表达式中的字符串相同的字符后,提取所述字符之后至与下一个所述正则表达式中字符串相匹配的字符之前的字符;存储所述提取的字符和所述当前正则表达式相对应类别的信息。 |
地址 |
100871 北京市海淀区成府路298号方正大厦5层 |