发明名称 一种概念型文档的识别方法和系统
摘要 本发明提供了一种概念型文档的识别方法和系统,其中,所述方法包括以下步骤:读取源文档;采用预置的关键字符进行文档匹配,根据匹配结果进行计分;所述预置的关键字符由概念型文档的表达方式得到;比较计分总和与预置的判断阈值,确定该源文档是否为概念型文档。由于本发明仅仅需要采用匹配的方式就可以实现识别目的,只需要对目标文档进行一次-两次的扫描即可,不需要深入的语义分析,不需要考察概念的内涵,可以减少处理文档所消耗的计算资源与处理时间;并且,本发明在处理过程中仅以该文档的内容作为分析源即可,而不依赖于与文档具有某种关系的其他文档的内容。所以本发明非常节约计算资源,并且识别速度快、效率高。
申请公布号 CN101004753A 申请公布日期 2007.07.25
申请号 CN200710000398.9 申请日期 2007.01.25
申请人 北京搜狗科技发展有限公司 发明人 刘琳
分类号 G06F17/30(2006.01) 主分类号 G06F17/30(2006.01)
代理机构 北京集佳知识产权代理有限公司 代理人 逯长明
主权项 1、一种概念型文档的识别方法,其特征在于,包括:步骤a、读取源文档;步骤b、采用预置的关键字符进行文档匹配,根据匹配结果进行计分;所述预置的关键字符由概念型文档的表达方式得到;步骤c、比较计分总和与预置的判断阈值,确定该源文档是否为概念型文档。
地址 100084北京市海淀区中关村东路1号院威新国际大厦9层01房间