一种用于电信潜在换机用户发现的数据挖掘方法,申请号CN201510186319.2-传众专利搜索

发明名称	一种用于电信潜在换机用户发现的数据挖掘方法
摘要	本发明提供用于电信潜在换机用户发现的数据挖掘方法，包括如下步骤：1)数据集构造阶段：a收集用户的消费信息、用户历史换机信息、用户信息、终端信息；b数据预处理，同时产生数据集；c处理类别不均衡的数据集，形成最终的训练集和预测集；挖掘阶段：a)获取步骤1-c中处理生成的数据集；b)实施决策树算法发现潜在换机用户；c)结束。本发明是基于数据挖掘的技术在电信用户中找出潜在的换机用户。和传统的方法相比更精确、更高效，具有实现简单、代价低等一系列的优点。
申请公布号	CN104794195A	申请公布日期	2015.07.22
申请号	CN201510186319.2	申请日期	2015.04.17
申请人	南京大学	发明人	张雷;张奎亮;资帅;彭岳;蔡洋;王崇骏;李宁
分类号	G06F17/30(2006.01)I	主分类号	G06F17/30(2006.01)I
代理机构	南京瑞弘专利商标事务所(普通合伙) 32249	代理人	陈建和
主权项	用于电信潜在换机用户发现的数据挖掘方法，其特征是包括如下步骤：1)数据集构造阶段：a收集用户的消费信息、用户历史换机信息、用户信息、终端信息；b数据预处理，同时产生数据集；c处理类别不均衡的数据集，形成最终的训练集和预测集；d结束；2)挖掘阶段：a获取步骤1)‑c中处理生成的数据集；b实施数据挖掘算法发现潜在换机用户；c保存结果；d结束；步骤1)‑a中所说的收集数据为收集电信客户的消费信息等相关数据；步骤1)‑b中所说的数据预处理具体过程如下：1)选择用户状态表中状态正常的用户作为我们的预测用户，每个用户都有一个唯一的user_id；2)以时间点为分割，规划出每个用户在该时间点之前的消费信息、换机信息等，并通过user_id关联起来，以当前月为时间分割点的是预测数据集，以前的其他月为时间分割点的是训练数据集；3)求出每个属性的信息增益率，选择信息增益率大的属性，摒弃信息增益率小的属性<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mo>-</mo><msub><mi>p</mi><mi>i</mi></msub><msub><mi>log</mi><mn>2</mn></msub><msub><mi>p</mi><mi>i</mi></msub></mrow>]]></math><img file="FDA0000701508260000011.GIF" wi="447" he="124" /></maths>其中S表示数据集，n表示数据集的类标中值的个数，p<sub>i</sub>表示第i个值出现的概率，E(S)表示数据集S的熵<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>S</mi><mo>,</mo><mi>A</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mfrac><msub><mi>S</mi><mi>i</mi></msub><mi>S</mi></mfrac><mi>E</mi><mrow><mo>(</mo><mi>S</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000701508260000012.GIF" wi="447" he="138" /></maths>属性A有n个取值C<sub>1</sub>,C<sub>2</sub>...C<sub>n</sub>，将数据集S分为n个不相交的子集S<sub>1</sub>,S<sub>2</sub>...S<sub>n</sub>，\|S\|为数据集的实例数，\|S<sub>i</sub>\|为数据集的第i个子集的实例数，E(S,A)表示数据集S由属性A分裂后的熵计算公式InfoGain(S,A)＝E(S)‑E(S,A)InfoGain(S,A)表示属性A的信息增益；<img file="FDA0000701508260000013.GIF" wi="1260" he="175" />4)过滤掉消费属性值为空的数据；5)过滤掉用机时间属性值小于15天的数据；6)过滤掉历史用机个数属性值超于50个的数据；7)过滤掉手机imei重复的数据；8)为训练数据集的每一条记录添加类标；9)结束；步骤1)‑c具体过程如下：1)基于KNN算法对训练数据集中的边界数据进行过滤；2)对训练数据集中大类数据进行聚类；3)对聚类后的大类数据进行分层抽样；4)结合小类数据组合成最终的训练集；5)结束；步骤2)‑b中数据挖掘决策树算法的一次构建过程具体如下：1)创建一个根节点N；2)若训练数据集集为空，则标记节点N为空，并将其返回；3)若训练数据集属于同一个类标C，则将节点N标记为C，并将其作为叶子节点返回；4)若属性集合A为空，则将节点N标记为训练集中最多的那个类标M，并将其作为叶子节点返回；5)对属性集合A中的每个属性进行离散型判断；6)将连续型属性离散化处理；7)选择属性集合A中信息增益最高的属性a；8)根据属性a的取值a＝d<sub>i</sub>对结点N进行分支划分，确定每个分支的子数据集；9)建立a＝d<sub>i</sub>的分支，并且节点N按该分支建立子结点N<sub>i</sub>；10)以N<sub>i</sub>为根节点，属性a以外的属性为属性集，递归构建决策树。
地址	210093 江苏省南京市鼓楼区汉口路22号