发明名称 文档检测方法及装置
摘要 本发明提供一种文档检测方法,包括:获取与文档相应地段落特征信息;将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;根据所述比对结果判断是否具有与所述文档相似的已有文档。本发明通过段落特征信息对文档进行检测,可较为准确地进行文档之间的相似度比对,避免了对文档分段处理的作弊行为,且查询效率较高、服务器处理压力较小;将该文档检测方法用于改善在线文档版权属性检测,可在文档上传时,即对该文档进行检测,以避免后续对文档版权属性检测时,给服务器造成的不必要压力;同时,可批量的处理已有文档的版权属性检测,效率较高。
申请公布号 CN102156689A 申请公布日期 2011.08.17
申请号 CN201110080838.2 申请日期 2011.03.31
申请人 百度在线网络技术(北京)有限公司 发明人 周纾;李彦宏;徐兴军;张雯
分类号 G06F17/22(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 深圳市威世博知识产权代理事务所(普通合伙) 44280 代理人 何青瓦;李庆波
主权项 一种文档检测方法,其特征在于,所述文档检测方法包括以下步骤:S1、获取与文档相应地段落特征信息;S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;S3、根据所述比对结果判断是否具有与所述文档相似的已有文档。
地址 100085 北京市海淀区上地十街10号百度大厦