发明名称 税收可疑数据的提取方法及系统
摘要 本发明公开一种税收可疑数据的提取方法,包括:数据准备;可疑数据分类器的训练:训练时所采用的算法为PSOM算法及SVM算法并用;所采用的输入为训练集T=[X;Y],其中矩阵X的列x<sub>j</sub>表示第i个特征中的第j个的值,每一行x<sub>i</sub>是第i个特征的向量,元素y<sub>i</sub>表示第i个特征的类标签;通过并用PSOM算法及SVM算法对所输入的训练集T=[X;Y]进行运算后,得到的输出包括两个:第一个为X',即矩阵X经过算法PSOM训练结果的子集;第二个为PSOM-SVM分类机;以及将要分类的数据输入已经训练好的分类器,得到分类结果,其中属于错误类别的数据就是最后需要输出的疑点数据,即被作为是税收可疑数据。本发明还提供了一种税收可疑数据的提取系统。
申请公布号 CN105701702A 申请公布日期 2016.06.22
申请号 CN201410710976.8 申请日期 2014.11.28
申请人 航天信息股份有限公司 发明人 任钦正;吴伟刚;刘菁菁;石琛;张莹
分类号 G06Q40/00(2012.01)I 主分类号 G06Q40/00(2012.01)I
代理机构 北京工信联合知识产权代理事务所(普通合伙) 11266 代理人 李韬
主权项 一种税收可疑数据的提取方法,包括:数据准备:将原始税收数据样本分割成若干数据子集,并将不同的数据子集提交给各SOM网络进行同时学习;各个并行的SOM网络对其分得的数据子集进行学习直至稳定;利用各个SOM的学习结果进行集中学习进而得到最终学习结果;可疑数据分类器的训练:训练时所采用的算法为PSOM算法及SVM算法并用;所采用的输入为训练集T=[X;Y],其中矩阵X的列x<sub>j</sub>表示第i个特征中的第j个的值,每一行x<sub>i</sub>是第i个特征的向量,元素y<sub>i</sub>表示第i个特征的类标签;通过并用PSOM算法及SVM算法对所输入的训练集T=[X;Y]进行运算后,得到的输出包括两个:第一个为X',即矩阵X经过算法PSOM训练结果的子集;第二个为PSOM‑SVM分类机;以及将要分类的数据输入已经训练好的分类器,得到分类结果,其中属于错误类别的数据就是最后需要输出的疑点数据,即被作为是税收可疑数据。
地址 100195 北京市海淀区杏石口路甲18号航天信息园