发明名称 一种数据流分类的概念漂移检测方法
摘要 本发明公开了一种数据流分类的概念漂移检测方法,其步骤为:①数据流分块:根据事先设定的数据块的规模d,按照数据到达的先后顺序每采集到d个训练样本就训练一个分类器。②滑动窗口调整:设定滑动窗口中分类器hi的数量K,当滑动窗口中分类器hi的数量少于K时,最新训练的分类器hi自动加入滑动窗口;当滑动窗口中分类器hi的数量等于K时,对滑动窗口中的分类器hi进行更新;③概念漂移检测:当需要进行概念检测时,使用可信多数投票法从滑动窗口中选择合适的分类器给出概念判别。本发明是一种原理简单、运行可靠、检测精度高、检测速度快、适用范围广的数据流分类的概念漂移检测方法。
申请公布号 CN101827002A 申请公布日期 2010.09.08
申请号 CN201010184726.7 申请日期 2010.05.27
申请人 文益民 发明人 文益民
分类号 H04L12/26(2006.01)I 主分类号 H04L12/26(2006.01)I
代理机构 湖南兆弘专利事务所 43008 代理人 赵洪;周长清
主权项 1.一种数据流分类的概念漂移检测方法,其特征在于步骤为:①数据流分块:设定数据块的规模d,按照数据流中数据到达的先后顺序,每采集到d个数据,就给出这d个数据的类别并以该d个数据所组成的数据块为一个训练集,将所采集到的数据块依顺序记为S<sub>i</sub>,其中0≤i且i的最大值由当前训练样本的总数量决定,第一个数据块记为S<sub>0</sub>;在每个S<sub>i</sub>上训练一个分类器h<sub>i</sub>,以S<sub>i</sub>作为测试集由h<sub>i</sub>给出测试结果TR<sub>i</sub>,存储S<sub>i</sub>、h<sub>i</sub>和TR<sub>i</sub>;②滑动窗口调整:设定滑动窗口中分类器h<sub>i</sub>的数量K,当滑动窗口中分类器h<sub>i</sub>的数量少于K时,最新训练的分类器h<sub>i</sub>自动加入滑动窗口;当滑动窗口中分类器h<sub>i</sub>的数量等于K时,对滑动窗口中的分类器h<sub>i</sub>进行更新;③概念漂移检测:设当前滑动窗口中分类器h<sub>i</sub>的数量为K<sub>0</sub>,K<sub>0</sub>≤K,当需要对测试数据X进行概念漂移检测时分两步进行:3.1、将测试数据X输入滑动窗口中的所有分类器h<sub>i</sub>,按顺序计算由分类器<img file="FDA0000021792000000011.GIF" wi="262" he="67" />给出的分类结果和分类置信度,3.2、自动选择滑动窗口中分类置信度较高的分类器进行多数投票,给出对测试数据X的类别判断,完成对概念漂移的检测。
地址 410208 湖南省长沙市含浦科教园湖南工业职业技术学院