发明名称 |
支持基于规则的文档内容挖掘的系统与方法 |
摘要 |
一种用于支持从结构化数据或非结构化数据提取内容的基于规则的内容挖掘的系统,该系统接收包含结构化数据、或非结构化数据、或者两者混合数据的文件。然后,系统基于所述接收的文件来生成易处理的可扩展标记语言(pXML)文件。系统进一步基于一种或多种规则来从所述pXML文件提取内容,以及基于指定格式来生成语义XML文件。 |
申请公布号 |
CN101361063A |
申请公布日期 |
2009.02.04 |
申请号 |
CN200780001495.8 |
申请日期 |
2007.04.10 |
申请人 |
龙搜(北京)科技有限公司 |
发明人 |
陈翌;何余良 |
分类号 |
G06F17/27(2006.01) |
主分类号 |
G06F17/27(2006.01) |
代理机构 |
北京市金杜律师事务所 |
代理人 |
王茂华;李辉 |
主权项 |
1.一种用于支持从结构化数据或非结构化数据提取内容的基于规则的内容挖掘的方法,所述方法包括:接收包含结构化数据、或非结构化数据、或者两者混合数据的文件;基于所述接收的文件来生成易处理的可扩展标记语言(pXML)文件;基于一种或多种规则来从所述pXML文件提取内容;以及基于指定格式来生成语义XML文件。 |
地址 |
100083中国北京市海淀区静淑苑2号清华创业广场4层401室 |