发明名称 一种数据的识别处理方法
摘要 本发明公开了一种数据的识别处理方法,包括如下步骤:S10:对数据进行实时识别,并将欺诈数据和非欺诈数据以及数据对应信任值分别存入数据库;S11:对数据进行定时识别,并将欺诈站点存入欺诈站点数据库,同时将得到的站点信任值分配给站点下的数据;S12:对数据进行综合识别,结合定时识别阶段获取的信任值,将实时识别中存入非欺诈数据库中的数据进行再一次的识别判断。本发明通过基于数据融合的数据实时识别、定时识别和数据综合识别有机结合,形成一套整的数据识别机制,在已获取的用户访问数据基础上,通过一种有效的识别方法,实现既能快速响应客户的同时,保证了识别的准确性和全面性。
申请公布号 CN102663021B 申请公布日期 2014.12.03
申请号 CN201210077032.2 申请日期 2012.03.21
申请人 浙江盘石信息技术有限公司 发明人 戴霖;田宁;刘崟;谭磊
分类号 G06F17/30(2006.01)I;H04L29/06(2006.01)I 主分类号 G06F17/30(2006.01)I
代理机构 杭州宇信知识产权代理事务所(普通合伙) 33231 代理人 张宇娟
主权项 一种数据的识别处理方法,其特征在于,包括如下步骤: S10:对数据进行实时识别,并将识别出的欺诈数据和非欺诈数据以及数据对应信任值分别存入数据库,具体包括: S101:建立模块划分库,并对每个模块依已有经验进行质量值分配; S102:对每条用户访问数据进行基于模块的统计分析与质量值获取; S103:对各模块进行数据融合,通过公式<img file="FDA0000510427680000011.GIF" wi="726" he="126" />将各模块的质量值融合,得到每条数据对于欺诈属性的信任值;其中,r_bel<sub>j</sub>是指第j条用户访问数据对欺诈属性的信任值,n为模块个数,α<sub>i</sub>代表第i个模块中的数据对欺诈属性的质量值;S104:将该信任值与预先设定的实时欺诈识别信任值阈值比较,做出数据是否为欺诈数据的实时判断; S11:对数据进行定时识别,并将识别出的欺诈站点存入欺诈站点数据库,同时将得到的站点信任值分配给站点下的数据,具体包括: S111:建立维度库,对数据依据其分布属性进行维度选择,并依照已有经验建立维度标准分布库; S112:数据聚合与统计,对用户访问数据进行基于站点的聚合,并对聚合后数据进行基于维度的分布统计; S113:各维度相似度计算,根据公式<img file="FDA0000510427680000012.GIF" wi="358" he="128" />进行各维度与标准维度 的相似度计算;其中,sim<sub>i</sub>是指站点实际的i维度分布与标准i维度分布的相似值,<img file="FDA0000510427680000021.GIF" wi="80" he="77" />是指标准i维度分布向量,<img file="FDA0000510427680000024.GIF" wi="60" he="75" />是指站点实际的i维度分布向量;S114:根据公式<img file="FDA0000510427680000022.GIF" wi="808" he="124" />对各维度进行数据融合,得到该站点数据对于欺诈属性的信任值;其中,f_bel<sub>j</sub>是指站点j中各维度分布对欺诈属性的信任值,m表示维度个数;S115:将所获得的欺诈信任值f_bel<sub>j</sub>与定时欺诈识别信任值阈值比较,若大于预设阈值,则判断该站点为欺诈站点;否则,判断为非欺诈站点; S12:对数据进行综合识别,结合定时识别阶段获取的信任值,将实时识别中存入非欺诈数据库中的数据进行再一次的识别判断,具体包括: S121:分配定时欺诈识别信任值,将定时欺诈识别中得到的站点信任值分配到其对应的各用户访问数据上; S122:两模块数据融合,采用公式<img file="FDA0000510427680000023.GIF" wi="928" he="134" />对两模块数据融合进行计算;其中,w_bel<sub>j</sub>是指第j条用户访问数据对欺诈属性的信任值;S123:将所获得的欺诈信任值与综合欺诈识别信任值阈值比较,若大于预设阈值,则判断该条用户访问数据为欺诈数据;否则,判断为非欺诈数据。 
地址 310011 浙江省杭州市拱墅区北部软件园C区祥园路45号