发明名称 |
基于规则的文档内容挖掘器 |
摘要 |
本发明提供一种将web、文本、PDF、WordML、RTF、Excel、PowerPoint、MicrosoftWord、FrameMaker等格式文件转换成具有语义的可扩展标记语言的装置和实现方法。本装置,即可扩展标记语言集中器,由预处理器、规则引擎和后处理器等三个部分组成。本装置的预处理器由各种数据文件的驱动器组成,通过数据文件驱动器读取文件内容,然后将文件内容自动处理成一种可操作的可扩展标记语言形式,记为Processible Extensible Markup Language,简称pXML。pXML对数据内容起到归整作用。规则引擎是用已定义好的规则来解析和规整pXML内容。这些规则预先定义在数据文档所对应的标准的转换映射模板中。在后处理器中,用可扩展样式语言或另外标准的转换映射模板来把规整后的pXML转换成最终的具有语义功能的可扩展标记语言。 |
申请公布号 |
CN101055578A |
申请公布日期 |
2007.10.17 |
申请号 |
CN200610072533.6 |
申请日期 |
2006.04.12 |
申请人 |
龙搜(北京)科技有限公司 |
发明人 |
陈翌;何余良 |
分类号 |
G06F17/30(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
北京市金杜律师事务所 |
代理人 |
张维 |
主权项 |
1.将非结构化的文档内容转换成具有语义的XML的方法包括步骤:1)通过各种文件对应的驱动器来解析文件内容,然后将文件内容自动预处理成pXML,一种可扩展标记语言形式。将文本内容转换成pXML的目的是归整文档内容。非结构化文档的驱动器包括web文件驱动器、PDF文件驱动器、WordML文件驱动器、RTF文件驱动器、Excel文件驱动器、PowerPoint文件驱动器、Word文件驱动器、Latex文件驱动器和FrameMaker驱动器。2)用文档所对应的映射模板中的映射规则来解析pXML内容,并提取成标准的、具有语义功能的文档内容,并用如DocBook XML,Legal XML等扩展标记语言形式来表示。3)用文档所对应的XSLT或外部程序把标准的XML或pXML转换成html、WML等显示格式,以供浏览器终端或阅读器阅读。非结构化文档在转换成具有语义功能的XML时,可根据实际需要来选择以上三个转换步骤。若为了非结构化数据的规整和显示,仅用第一、第三步就可完成。若为了同其它数据保持统一的接口,仅用第一、第二步就可完成。而若为了以某种指定的数据格式的显示和深入分析,则需完成以上三个步骤。 |
地址 |
100083海淀区静淑苑2号清华创业广场4层401室 |