一种文本去重方法和装置,申请号CN201310556688.7-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种文本去重方法和装置
摘要	本发明提供了一种文本去重方法和装置，技术方案为：对案例文本的特征词串进行切片并计算各切片的签名值，以此建立签名值和案例文本的关联关系，形成案例库。当有待处理文本需要进行去重处理时，对待处理文本的特征词串进行切片并计算各切片的签名值，根据各切片的签名值确定该切片对应的案例文本，从而通过统计对应同一案例文本的签名值个数，并利用最大签名值个数计算待处理文本与相应案例文本的相似度，进而进行相似判断。本发明需要的计算量较小，而且可以保证较小的误判率。
申请公布号	CN104636319A	申请公布日期	2015.05.20
申请号	CN201310556688.7	申请日期	2013.11.11
申请人	腾讯科技（北京）有限公司	发明人	贾铸斌;袁昌文
分类号	G06F17/21(2006.01)I;G06F17/30(2006.01)I	主分类号	G06F17/21(2006.01)I
代理机构	北京德琦知识产权代理有限公司 11018	代理人	谢安昆;宋志强
主权项	一种文本去重方法，其特征在于，该方法包括：针对每一案例文本，提取该案例文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值，建立该案例文本对应的各切片的签名值与该案例文本的关联关系；提取待处理文本中的特征词，按照预设规则对提取的特征词串进行切片并计算每个切片的签名值，查找每个所述关联关系，确定待处理文本对应的各切片的签名值关联的案例文本，并对关联该案例文本的签名值个数进行累加；确定签名值个数累加结果最大的案例文本，根据该签名值个数和待处理文本对应的切片总个数确定待处理文本与该案例文本的相似度，如果相似度大于第一预设值，则确定待处理文本和该案例文本相似，对待处理文本进行去重处理。
地址	100080 北京市海淀区海淀大街38号银科大厦16层1601-1608室

您可能感兴趣的专利

METHOD FOR PRODUCTION OF PRESERVES ROCKFISH IN PUNGENT SAUCE

METHOD FOR PRODUCTION OF PRESERVES FRIED GOBIES WITH VEGETABLES IN TOMATO SAUCE

METHOD FOR PRODUCTION OF PRESERVED PRODUCT FISH CUTLETS IN TOMATO SAUCE

METHOD FOR MANUFACTURE OF PRESERVES FISH WITH GARNISH AND HORSE RADISH

METHOD FOR PRODUCTION OF PRESERVED PRODUCT SICHENIK FISH CUTLETS UKRAINIAN-STYLE

Abschirmeinheit aus Beton

CIRCUIT ARRANGEMENT

LIQUID STORAGE TANK FOR PREVENTING OVERFLOW OF INNER LIQUID

VACUUM WATER-SPRINKLING AERATION MACHINE

PYROLYSIS OIL RECOVERY APPARATUS WITH SLUDGE COOLING DEVICE USING WASTE MATERIAL

VENTILATED SMOKING ARTICLE

COMPOSITE SHEET, METHOD FOR PREPARING THEREOF AND DISPLAY SUBSTRATE COMPRISING THE SAME

Bärbar elektronisk anordning

Preparation for the treatment of equine laminitis

Snap-set, ready-mix joint compound

Back-flow prevention valve for a fluid dispenser

Storage process

High bioavailability phosphorus

Manipulating fructan biosynthesis and enhancing plant biomass

Thraustochytrids, fatty acid compositions, and methods of making and uses thereof