发明名称 基于规则的文档内容挖掘器
摘要 本发明提供一种将web、文本、PDF、WordML、RTF、Excel、PowerPoint、MicrosoftWord、FrameMaker等格式文件转换成具有语义的可扩展标记语言的装置和实现方法。本装置,即可扩展标记语言集中器,由预处理器、规则引擎和后处理器等三个部分组成。本装置的预处理器由各种数据文件的驱动器组成,通过数据文件驱动器读取文件内容,然后将文件内容自动处理成一种可操作的可扩展标记语言形式,记为Processible Extensible Markup Language,简称pXML。pXML对数据内容起到归整作用。规则引擎是用已定义好的规则来解析和规整pXML内容。这些规则预先定义在数据文档所对应的标准的转换映射模板中。在后处理器中,用可扩展样式语言或另外标准的转换映射模板来把规整后的pXML转换成最终的具有语义功能的可扩展标记语言。
申请公布号 CN101055578A 申请公布日期 2007.10.17
申请号 CN200610072533.6 申请日期 2006.04.12
申请人 龙搜(北京)科技有限公司 发明人 陈翌;何余良
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京市金杜律师事务所 代理人 张维
主权项 1.将非结构化的文档内容转换成具有语义的XML的方法包括步骤:1)通过各种文件对应的驱动器来解析文件内容,然后将文件内容自动预处理成pXML,一种可扩展标记语言形式。将文本内容转换成pXML的目的是归整文档内容。非结构化文档的驱动器包括web文件驱动器、PDF文件驱动器、WordML文件驱动器、RTF文件驱动器、Excel文件驱动器、PowerPoint文件驱动器、Word文件驱动器、Latex文件驱动器和FrameMaker驱动器。2)用文档所对应的映射模板中的映射规则来解析pXML内容,并提取成标准的、具有语义功能的文档内容,并用如DocBook XML,Legal XML等扩展标记语言形式来表示。3)用文档所对应的XSLT或外部程序把标准的XML或pXML转换成html、WML等显示格式,以供浏览器终端或阅读器阅读。非结构化文档在转换成具有语义功能的XML时,可根据实际需要来选择以上三个转换步骤。若为了非结构化数据的规整和显示,仅用第一、第三步就可完成。若为了同其它数据保持统一的接口,仅用第一、第二步就可完成。而若为了以某种指定的数据格式的显示和深入分析,则需完成以上三个步骤。
地址 100083海淀区静淑苑2号清华创业广场4层401室