一种检测重复文本的方法及装置,申请号CN201310144339.4-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种检测重复文本的方法及装置
摘要	本发明公开了一种检测文本重复的方法，用于实现文本是否重复的检测，提高检测的准确度。所述方法包括：获得待测文本和现有文本中的特征词和特征词序列；将待测文本中的每个特征词分别与现有文本中的每个特征词进行匹配；在特征词匹配成功时，获取匹配一致的特征词在待测文本特征词序列中的绝对位置与在现有文本特征词序列中的绝对位置；判断是否存在一组匹配一致的特征词，所述一组的所有特征词在待测文本与现有文本的特征词序列中的绝对位置有线性关系；若存在一组匹配一致的特征词，根据所述一组匹配一致的特征词在待测文本和现有文本的特征词序列中的绝对位置，确定待测文本与现有文本的重复区域。本发明还公开了用于实现所述方法的装置。
申请公布号	CN103246640A	申请公布日期	2013.08.14
申请号	CN201310144339.4	申请日期	2013.04.23
申请人	北京十分科技有限公司	发明人	李鹏;孙熙;陆承恩
分类号	G06F17/27(2006.01)I	主分类号	G06F17/27(2006.01)I
代理机构		代理人
主权项	一种检测文本重复的方法，其特征在于，包括以下步骤：获得待测文本和现有文本中的特征词和特征词序列；将待测文本中的每个特征词分别与现有文本中的每个特征词进行匹配；在特征词匹配成功时，获取匹配一致的特征词在待测文本特征词序列中的绝对位置与在现有文本特征词序列中的绝对位置；判断是否存在一组匹配一致的特征词，所述一组的所有特征词在待测文本与现有文本的特征词序列中的绝对位置有线性关系；若存在一组匹配一致的特征词，根据所述一组匹配一致的特征词在待测文本和现有文本的特征词序列中的绝对位置，确定待测文本与现有文本的重复区域。
地址	100004 北京市朝阳区光华路7号汉威大厦东区18A1

您可能感兴趣的专利

AIR CONDITIONING SYSTEM

REFRIGERATING CYCLE DEVICE

SMALLLSIZE ELECTRONIC DESK CALCULATOR

AIRTIGHT STEM FOR CRYSTAL RESONATOR

PORTABLE NOISE DETECTOR

DEVICE FOR MOUNTING PANEL ON WALL BACKING

DEVICE FOR CONTROLLING SUPPLY AMOUNT OF GRAINS BY FLOW CONVEYOR

APPARATUS FOR EXHAUSTING PULVERULENT BODY IN THE HOPPER

MIRROR DRIVING MECHANISM

STEERING FORCE ADJUSTING VALVE FOR POWER STEERING DEVICE

PROFILING ROTATION TYPE SIDE ROLLER

MEANS FOR DEGASSING EXCAVATING FLUID

AVSOKNINGSANORDNING MED LJUSFLECK AV VARIERBAR STORLEK

LJUSELEKTRONISK LENGDMETNINGSANORDNING

FORDONSGASTURBIN I TVAAXELKONSTRUKTION

AV FORTILLVERKADE, IHALIGA BYGGNADSELEMENT AV BETONG FRAMSTELLD BYGGNAD

FORMSLUTNINGSANORDNING FOR EN FORMSPRUTMASKIN MED EN DUBBELVERKANDE HYDRAULISK SLUTNINGSCYLINDER

ANORDNING VID EN FORDONSRAM

PROCESSO DI PREPARAZIONE DI ALLUMINE A POROSITA' CONTROLLATA, E APPLICAZIONI DELLE ALLUMINE COSI'PREPARATE.