发明名称 面向后台多源数据的特征提取和特征选择方法
摘要 一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择。本发明的有益效果为:对于选择出来的组特征,使用C45决策树建立分类器离网用户分析分类器,对离网用户预测的准确率达到了45%,对存在离网倾向的停机用户预测的准确率达到了88%。
申请公布号 CN104268572A 申请公布日期 2015.01.07
申请号 CN201410491742.9 申请日期 2014.09.23
申请人 南京大学;中博信息技术研究院有限公司 发明人 范剑锋;杨琬琪;高阳;史颖欢;孙良君
分类号 G06K9/62(2006.01)I;G06K9/46(2006.01)I 主分类号 G06K9/62(2006.01)I
代理机构 南京钟山专利代理有限公司 32252 代理人 戴朝荣
主权项 一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择;其中,步骤(2)中的用户每日上网时间序列,使用了基于多尺度直方图统计的上网时间趋势特征提取方法;步骤(3)中的Group Lasso方法的λ值,使用5*10<sup>‑5</sup>,5*10<sup>‑4</sup>,5*10<sup>‑3</sup>,0.05,0.1,0.5和0.9这七组值并且使用Logistic Regression方法进行交叉验证。
地址 210093 江苏省南京市鼓楼区汉口路22号