发明名称 基于余弦相似度的异常报税数据检测方法
摘要 本发明公开了一种基于余弦相似度的异常报税数据检测方法:基于同行业/地区的纳税人报税数据,计算纳税人报税数据的统计指标以及同行业/地区纳税人报税数据的统计特征;通过计算不同纳税人与同行业/地区报税数据的统计特征间的余弦相似度,检测异常数据和识别可疑纳税人。本方法可以有效提高异常报税数据的检测精度,降低计算复杂度,并实现对可疑纳税人的识别。
申请公布号 CN103377454B 申请公布日期 2015.11.11
申请号 CN201310291896.9 申请日期 2013.07.11
申请人 西安交通大学 发明人 刘烃;刘杨;桂宇虹;郑庆华;屈宇
分类号 G06F19/00(2011.01)I;G06Q40/00(2012.01)I 主分类号 G06F19/00(2011.01)I
代理机构 西安通大专利代理有限责任公司 61200 代理人 汪人和
主权项 基于余弦相似度的异常报税数据检测方法,其特征在于,包括以下步骤:S100,采集同一报税业务周期内同行业/地区m个纳税人的报税数据;S101,根据步骤S100采集的同一报税业务周期内,纳税人i的报税数据,计算各项报税统计指标,记为S<sub>1</sub>(i),S<sub>2</sub>(i),…,S<sub>n</sub>(i);以此生成针对纳税人i的统计指标向量S(i)=(S<sub>1</sub>(i),S<sub>2</sub>(i),…,S<sub>n</sub>(i));其中n为报税统计指标的种类总数;S102,针对同行业/地区的所有纳税人1,2,…,m,计算其报税数据统计指标向量的算数平均值AVG和销售总额加权平均值WAVG,计算公式为:<maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><mi>A</mi><mi>V</mi><mi>G</mi><mo>=</mo><mfrac><mn>1</mn><mi>m</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000748135750000011.GIF" wi="371" he="140" /></maths><maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><mi>W</mi><mi>A</mi><mi>V</mi><mi>G</mi><mo>=</mo><mfrac><mn>1</mn><mrow><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>o</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><mi>o</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000748135750000012.GIF" wi="621" he="204" /></maths>其中,o(i)是纳税人i的销售总值;S103,计算m个纳税人的统计指标向量与同行业/地区的统计特征AVG和WAVG的余弦相似度:相似度大于余弦相似度阈值的统计指标向量所对应的纳税人报税数据为正常数据;相似度小于等于余弦相似度阈值的统计指标向量所对应的纳税人报税数据存在异常数据;对于步骤S103中所检测出存在异常数据的纳税人,计算其各个报税数据统计指标分量与同行业/地区统计特征AVG和WAVG的分量相对误差;步骤S101中所述各项报税统计指标包括不同税种税负比、进项税额、销项税额、营业成本中一种或多种;步骤S103中余弦相似度的计算过程为:对于第i个纳税人的统计指标向量S(i)与同行业/地区的统计特征AVG和WAVG的余弦相似度的计算公式分别为:<maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mi>i</mi><mi>l</mi><mi>a</mi><mi>r</mi><mi>i</mi><mi>t</mi><mi>y</mi><mrow><mo>(</mo><mi>S</mi><mo>(</mo><mi>i</mi><mo>)</mo><mo>,</mo><mi>A</mi><mi>V</mi><mi>G</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>A</mi><mi>V</mi><mi>G</mi></mrow><mrow><mo>|</mo><mo>|</mo><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo><mo>&CenterDot;</mo><mo>|</mo><mo>|</mo><mi>A</mi><mi>V</mi><mi>G</mi><mo>|</mo><mo>|</mo></mrow></mfrac><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>S</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&times;</mo><msub><mi>AVG</mi><mi>j</mi></msub></mrow><mrow><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><msub><mi>S</mi><mi>j</mi></msub><msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow></mrow></msqrt><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><msup><msub><mi>AVG</mi><mi>j</mi></msub><mn>2</mn></msup></mrow></mrow></msqrt></mrow></mfrac></mrow>]]></math><img file="FDA0000748135750000021.GIF" wi="1374" he="297" /></maths><maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mi>S</mi><mi>i</mi><mi>m</mi><mi>i</mi><mi>l</mi><mi>a</mi><mi>r</mi><mi>i</mi><mi>t</mi><mi>y</mi><mrow><mo>(</mo><mi>S</mi><mo>(</mo><mi>i</mi><mo>)</mo><mo>,</mo><mi>A</mi><mi>V</mi><mi>G</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&CenterDot;</mo><mi>A</mi><mi>V</mi><mi>G</mi></mrow><mrow><mo>|</mo><mo>|</mo><mi>S</mi><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>|</mo><mo>|</mo><mo>&CenterDot;</mo><mo>|</mo><mo>|</mo><mi>A</mi><mi>V</mi><mi>G</mi><mo>|</mo><mo>|</mo></mrow></mfrac><mo>=</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><msub><mi>S</mi><mi>j</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>&times;</mo><msub><mi>AVG</mi><mi>j</mi></msub></mrow><mrow><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><msub><mi>S</mi><mi>j</mi></msub><msup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mn>2</mn></msup></mrow></mrow></msqrt><msqrt><mrow><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>n</mi></munderover><mrow><msup><msub><mi>AVG</mi><mi>j</mi></msub><mn>2</mn></msup></mrow></mrow></msqrt></mrow></mfrac></mrow>]]></math><img file="FDA0000748135750000022.GIF" wi="1471" he="293" /></maths>其中AVG<sub>j</sub>是算术平均值AVG的第j个分量,WAVG<sub>j</sub>是销售总额加权平均值WAVG的第j个分量;S<sub>j</sub>(i)为第i个纳税人的第j项报税统计指标;所述基于余弦相似度的异常报税数据检测方法通过计算机自动完成。
地址 710049 陕西省西安市咸宁西路28号