发明名称 |
面向后台多源数据的特征提取和特征选择方法 |
摘要 |
一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择。本发明的有益效果为:对于选择出来的组特征,使用C45决策树建立分类器离网用户分析分类器,对离网用户预测的准确率达到了45%,对存在离网倾向的停机用户预测的准确率达到了88%。 |
申请公布号 |
CN104268572A |
申请公布日期 |
2015.01.07 |
申请号 |
CN201410491742.9 |
申请日期 |
2014.09.23 |
申请人 |
南京大学;中博信息技术研究院有限公司 |
发明人 |
范剑锋;杨琬琪;高阳;史颖欢;孙良君 |
分类号 |
G06K9/62(2006.01)I;G06K9/46(2006.01)I |
主分类号 |
G06K9/62(2006.01)I |
代理机构 |
南京钟山专利代理有限公司 32252 |
代理人 |
戴朝荣 |
主权项 |
一种面向后台多源数据的特征提取和特征选择方法,其特征在于,包括如下步骤:(1)在多个月份的后台数据上划分训练集和测试集;(2)训练集上针对不同的源数据提取相应分组特征;(3)使用Group Lasso方法,在测试集上通过交叉验证进行特征组选择;其中,步骤(2)中的用户每日上网时间序列,使用了基于多尺度直方图统计的上网时间趋势特征提取方法;步骤(3)中的Group Lasso方法的λ值,使用5*10<sup>‑5</sup>,5*10<sup>‑4</sup>,5*10<sup>‑3</sup>,0.05,0.1,0.5和0.9这七组值并且使用Logistic Regression方法进行交叉验证。 |
地址 |
210093 江苏省南京市鼓楼区汉口路22号 |