发明名称 |
一种概念型文档的识别方法和系统 |
摘要 |
本发明提供了一种概念型文档的识别方法和系统,其中,所述方法包括以下步骤:读取源文档;采用预置的关键字符进行文档匹配,根据匹配结果进行计分;所述预置的关键字符由概念型文档的表达方式得到;比较计分总和与预置的判断阈值,确定该源文档是否为概念型文档。由于本发明仅仅需要采用匹配的方式就可以实现识别目的,只需要对目标文档进行一次-两次的扫描即可,不需要深入的语义分析,不需要考察概念的内涵,可以减少处理文档所消耗的计算资源与处理时间;并且,本发明在处理过程中仅以该文档的内容作为分析源即可,而不依赖于与文档具有某种关系的其他文档的内容。所以本发明非常节约计算资源,并且识别速度快、效率高。 |
申请公布号 |
CN101004753A |
申请公布日期 |
2007.07.25 |
申请号 |
CN200710000398.9 |
申请日期 |
2007.01.25 |
申请人 |
北京搜狗科技发展有限公司 |
发明人 |
刘琳 |
分类号 |
G06F17/30(2006.01) |
主分类号 |
G06F17/30(2006.01) |
代理机构 |
北京集佳知识产权代理有限公司 |
代理人 |
逯长明 |
主权项 |
1、一种概念型文档的识别方法,其特征在于,包括:步骤a、读取源文档;步骤b、采用预置的关键字符进行文档匹配,根据匹配结果进行计分;所述预置的关键字符由概念型文档的表达方式得到;步骤c、比较计分总和与预置的判断阈值,确定该源文档是否为概念型文档。 |
地址 |
100084北京市海淀区中关村东路1号院威新国际大厦9层01房间 |