发明名称 文档检测方法及装置
摘要 本发明提供一种文档检测方法,包括:获取与文档相应地段落特征信息;将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;根据所述比对结果判断是否具有与所述文档相似的已有文档。本发明通过段落特征信息对文档进行检测,可较为准确地进行文档之间的相似度比对,避免了对文档分段处理的作弊行为,且查询效率较高、服务器处理压力较小;将该文档检测方法用于改善在线文档版权属性检测,可在文档上传时,即对该文档进行检测,以避免后续对文档版权属性检测时,给服务器造成的不必要压力;同时,可批量的处理已有文档的版权属性检测,效率较高。
申请公布号 CN102915295B 申请公布日期 2015.03.25
申请号 CN201210340026.1 申请日期 2011.03.31
申请人 百度在线网络技术(北京)有限公司 发明人 周纾;李彦宏;徐兴军;张雯
分类号 G06F17/22(2006.01)I;G06F17/30(2006.01)I 主分类号 G06F17/22(2006.01)I
代理机构 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人 倪志华
主权项 一种文档检测方法,其特征在于,所述文档检测方法包括以下步骤:S1、获取与文档相应地段落特征信息;S2、将所述文档的段落特征信息与至少一个已有文档的段落特征信息进行比对;S3、根据所述比对结果判断是否具有与所述文档相似的已有文档;其中,所述获取与文档相应地段落特征信息包括:S100、对文档中每一个段落进行切词,得到该段落的词和词频的二元组列表;S101、对所述列表中的二元组进行初始权重向量计算;S102、将所述二元组通过哈希算法进行计算,得到预设特征位的哈希字符串;S103、将所述哈希字符串映射至所述权重向量中;S104、计算所述权重向量对应位的值,获得段落特征信息。
地址 100085 北京市海淀区上地十街10号百度大厦
您可能感兴趣的专利