一种基于文本模型的过采样算法,申请号CN201410765212.9-传众专利搜索

首页产品黄页商标征信

会员服务注册登录

法人/股东/高管

发明名称	一种基于文本模型的过采样算法
摘要	本发明提供一种基于文本模型的过采样算法，该算法是通过计算每个样本在少数类样本中的k近邻和全体样本中的k近邻，并根据两个集合的分布情况，采取不同的处理方案进行过采样，并在过程中减小噪声，使得分类器更倾向于将不易判断类别的样本划分为少数类，进而提高少数类的查全率。
申请公布号	CN104462405A	申请公布日期	2015.03.25
申请号	CN201410765212.9	申请日期	2014.12.10
申请人	天津大学	发明人	刘江;王浩
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	天津市北洋有限责任专利代理事务所 12201	代理人	叶青
主权项	一种基于文本模型的过采样算法，包括如下步骤：第一，在文本模型中选取每个少数类样本S，分别对集合Cand(S)和Noise(S)初始化；第二，计算S与文本模型中所有样本的欧几里得距离，并选出其中距离最近的k个样本(k通常取5)，存入集合A(S)；计算S与所有其他少数类样本的欧几里得距离，并选出其中距离最近的k个样本，存入集合B(S)；第三，计算集合A(S)中少数类样本所占的比例R，<img file="FDA0000629867480000011.GIF" wi="374" he="142" />其中\|A(S)∩B(S)\|表示A(S)和B(S)的交集的样本数，\|A(S)\|表示A(S)的样本数；第四，根据步骤三中R的值更新集合Cand(S)和Noise(S)；第五，对步骤四中获得集合Cand(S)判断是否为空，如果集合Cand(S)不为空，则进行随机线性插值，即从Cand中(S)随机选出m个样本，分别与样本S进行随机线性插值，m的取值应参照样本集合不平衡比率；第六，对步骤四获得集合Noise(S)判断是否为空，集合Noise(S)不为空，则从样本集合中删除Noise(S)集合中包含的样本；第七，判断文本模型中是否存在少数类样本S；如果步骤七中存在少数类样本S，则返回步骤一循环计算；否则算法结束。
地址	300072 天津市南开区卫津路72号

您可能感兴趣的专利

METHOD AND SYSTEM FOR CODING CAPABLE OF CONTROLLING TRANSMITTED DATA AND DC-BALANCE

METHOD FOR MANUFACTURING A HOLLOW, POROUS VESSEL MADE OF RESIN

AUTOMATIC DOOR OPEN/CLOSE APPARATUS OF ID RECOGNITION FOR KEY PHONE SYSTEM

IDLE SPEED CONTROL SYSTEM ON INTERNAL COMBUSTION ENGINE

DRY MASTER COLOR AND MASTER BATCH FOR COLORING POLYESTER RESIN AND PREPARING METHOD THEREOF

SKI STORE BOX INSTALLED UNDER THE FLOOR FOR AUTOMOBILE

EXTRACTION OF PRECIOUS METALS FROM AND OTHER PRECIOUS METALS CONTAINING MATERIALS USING HALOGEN SALTS

BIAS TAPE MAKER

UNDERGROUND DRILLING METHOD AND DEVICE BY MULTI AND HAMMER AUGER MACHINE

WORD LINE DRIVING CIRCUIT OF NONVOLATILE SEMICONDUCTOR MEMORY HAVING SEPARATE R/W PATH

INPUT AND OUTPUT BUFFER

TERMINAL OF CABLE

FORMING METHOD OF INTERLAYER INSULATING FILM FOR SEMICONDUCTOR DEVICE

UV INRADIATION APPARATUS

UV IRRADIATION APPARATUS

SINK CODE INTERLEAVE METHOD AND APPARATUS THEREOF

ELECTROLYTE OF ELECTROLYTIC CONDENSER