发明名称 加油卡客户流失预测方法
摘要 本发明提供一种加油卡客户流失预测分析方法,收集一定期限内每个加油卡客户行为的原始数据,建立数据库;对原始数据进行整理汇总,计算出和加油卡客户流失行为相关的若干基本属性并进行布尔化处理,利用信息增益参量对属性的重要性进行评估,利用多维关联规则,得到属性的频繁项集,并对各频繁项集内的属性进行合并,然后采用决策树方式建立模型,并根据持续变化的加油卡客户数据对决策树模型进行修正,从而预测客户流失情况,并发布预警信息。本发明综合并改进了属性关联和决策树模型,增加了决策树生成效率和可理解性,属性的合并具有石化行业特色,从而解决传统决策树模型无法解决的问题,为石化行业提出了一种可行的客户流失预警方案。
申请公布号 CN102567807B 申请公布日期 2016.01.13
申请号 CN201010608325.X 申请日期 2010.12.23
申请人 上海亚太计算机信息系统有限公司 发明人 赵杨;李强;张学东
分类号 G06Q10/04(2012.01)I;G06Q50/00(2012.01)I 主分类号 G06Q10/04(2012.01)I
代理机构 上海旭诚知识产权代理有限公司 31220 代理人 郑立
主权项 一种加油卡客户流失预测分析方法,其特征在于,包括步骤:S1、收集一定期限内每个加油卡客户行为的原始数据,建立数据库;S2、以颗粒度为月对所述原始数据进行整理汇总,计算出和加油卡客户流失行为相关的若干基本属性;S3、对所述各基本属性进行离散化或布尔化处理;S4、利用信息增益参量对所述各基本属性的重要性进行评估,筛选出若干重要属性;S5、对所述各重要属性,利用多维关联规则,得到属性的频繁项集,并以每个频繁项集中的频繁项与该频繁维谓词集合并起来作为新属性;S6、针对所述多维频繁项集的新属性,采用决策树方式建立模型;S7、将实际已经流失的客户的数据输入所述决策树模型进行分析,比较分析结果和实际历史结果的差异,对所述决策树模型进行修正;S8、根据修正后的决策树模型进行客户流失预测,发布预警信息;所述步骤S4包括以下步骤:S41、计算任意基本属性的期望信息:I(s<sub>1</sub>,s<sub>2</sub>,…,s<sub>n</sub>)=‑∑p<sub>i</sub>log(p<sub>i</sub>)(i=1…m)其中,数据库的数据集为S,m为S的基本属性数目,<img file="FDA0000801691160000011.GIF" wi="196" he="156" />c<sub>i</sub>为某基本属性标号,p<sub>i</sub>为任意基本属性c<sub>i</sub>的概率,s<sub>i</sub>为c<sub>i</sub>上的样本数;S42、由A划分为子集的熵:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>E</mi><mrow><mo>(</mo><mi>A</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mo>(</mo><msub><mi>s</mi><mrow><mn>1</mn><mi>j</mi></mrow></msub><mo>+</mo><msub><mi>s</mi><mrow><mn>2</mn><mi>j</mi></mrow></msub><mo>+</mo><mo>...</mo><mo>+</mo><msub><mi>s</mi><mrow><mi>m</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow><mi>s</mi></mfrac><mi>I</mi><mrow><mo>(</mo><msub><mi>s</mi><mrow><mn>1</mn><mi>j</mi></mrow></msub><mo>,</mo><mo>...</mo><mo>,</mo><msub><mi>s</mi><mrow><mi>m</mi><mi>j</mi></mrow></msub><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000801691160000012.GIF" wi="835" he="152" /></maths>A为任意基本属性,具有v个不同的取值;S43、计算信息增益Gain(A)=I(s<sub>1</sub>,s<sub>2</sub>,…,s<sub>n</sub>)‑E(A);S44、设定阀值,去除信息增益很小的基本属性;所述步骤S6包括:S61、对步骤S5中所述的每个新属性计算信息增益,取信息增益最大的新属性作为根节点;S62、为该新属性的每一个取值建立一个树的分叉;S63、对每一个分叉,选出样本子集,对其余的新属性计算信息增益,建立节点;S64、递归以上过程,直到没有其余的新属性,该节点定义为叶子节点;S65、将没有样本的叶子节点剪掉;S66、将该节点归类为所含样本中个数最多的类别。
地址 200040 上海市静安区延安西路300号7楼