发明名称 一种网络爬虫论文查重法
摘要 本发明公开了一种网络爬虫论文查重法,具体步骤如下所示:网络爬虫论文查重法,具体步骤如下所示:第一步,上传需要查重的论文;第二步,提取论文中的关键词组;第三步,服务器搜索与上传文章的关键词有关信息的文章;第四步,抓取论文信息库中与上传文章相似的文章;第五步,抓取的文章与上传文章进行对比,得出相似度,第六步,把文章按照相似度梯度进行显示。该网络爬虫论文查重法在采用网络爬虫技术对论文进行查重时先智能提取论文中的关键词,在利用关键对信息库中的文章与上传文章进行相似度对比,论文信息库的信息量很大,对我们而言如果想要匹配出与上传文章相似的文章,需要耗费很大的人力,但也不一定能够找出完整的相似文章,该方法细化了查重的论文信息,为我们进行论文查重提供了方便有效的方法。
申请公布号 CN105468618A 申请公布日期 2016.04.06
申请号 CN201410446213.7 申请日期 2014.09.03
申请人 上海尧博信息科技有限公司 发明人 姚王平
分类号 G06F17/30(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 上海精晟知识产权代理有限公司 31253 代理人 冯子玲
主权项 一种网络爬虫论文查重法,具体步骤如下所示:第一步,上传需要查重的论文。第二步,提取论文中的关键词组。第三步,服务器搜索与上传文章的关键词有关信息的文章。第四步,抓取论文信息库中与上传文章相似的文章。第五步,抓取的文章与上传文章进行对比,得出相似度。第六步,把文章按照相似度梯度进行显示。
地址 200000 上海市普陀区同普路1175弄3号143室