发明名称 一种基于二分数据修补与扰动因子的商品价格预测方法
摘要 本发明公开了一种基于二分数据修补与扰动因子的商品价格预测方法,将二分修补数据方法引入扰动因子预测的新型商品价格预测方法,并将该商品价格预测方法应用于手机价格的预测,解决了现有销售商只有销售价格没有预测的问题,提高了网页商品价格数据抽取的抗噪性能,获得了更高的预测准确率,具有很高的实用价值。
申请公布号 CN102855583B 申请公布日期 2015.07.01
申请号 CN201110422274.6 申请日期 2011.12.16
申请人 淮阴工学院 发明人 朱全银;曹苏群;严云洋;胡蓉静;王红艳;周培;宗慧;丁瑾;李冬梅
分类号 G06Q30/02(2012.01)I 主分类号 G06Q30/02(2012.01)I
代理机构 代理人
主权项 一种基于二分数据修补与扰动因子的商品价格预测方法,其特征在于:通过二分法修补网页挖掘的缺陷数据,进而利用扰动因子算法实现商品价格的预测,具体包括以下步骤:步骤A、抽取网页中商品的名称、型号、类型与价格数据,建立数据集X={A<sub>1</sub>,A<sub>2</sub>,…,A<sub>k</sub>},设定需要预测价格的商品为A<sub>e</sub>={x<sub>1</sub>,x<sub>2</sub>,…x<sub>n</sub>},e的取值区间为:[1,k];步骤B、查找A<sub>e</sub>中异常数据,得到异常数据集B<sub>j</sub>,分别统计B<sub>j</sub>中属于时间上连续的异常数据段,设共有s个日期连续的异常数据段,每段日期上连续异常的数据个数为p,并设r=s;对于每一个p值,步骤G到步骤I只可能被执行一次,且步骤G到步骤I一共被执行s次,之后执行步骤J;步骤C、当r的值为零时,直接执行步骤J,当r的值不为零时,执行步骤D;步骤D、设B<sub>j</sub>中第r个连续的异常数据段为B<sub>r</sub>={b<sub>1</sub>,b<sub>2</sub>,…b<sub>m</sub>},<img file="FSB00001388064000000112.GIF" wi="491" he="89" />其在A<sub>e</sub>中的位置为:{x<sub>i</sub>,x<sub>i+1</sub>,…x<sub>i+p‑1</sub>};步骤E、按照p的值分别执行步骤F到步骤H,当p=1时执行步骤F,当p=2时执行步骤G,当p≥3时执行步骤H,步骤F、b<sub>1</sub>=x<sub>i+1</sub>;r=r‑1,回到步骤C;步骤G、b<sub>1</sub>=x<sub>i‑1</sub>,b<sub>2</sub>=x<sub>i+1</sub>;r=r‑1,回到步骤C;步骤H、计算p模2运算的余数的值是否为0,若值为0,则<img file="FSB0000138806400000011.GIF" wi="473" he="117" /><maths num="0001" id="cmaths0001"><math><![CDATA[<mrow><msub><mi>b</mi><mrow><mfrac><mi>m</mi><mn>2</mn></mfrac><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><msub><mi>b</mi><mi>m</mi></msub><mo>=</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>+</mo><mi>m</mi></mrow></msub><mo>,</mo></mrow>]]></math><img file="FSB0000138806400000012.GIF" wi="389" he="115" /></maths>r=r‑1,回到步骤C;若值不为0,则<maths num="0002" id="cmaths0002"><math><![CDATA[<mrow><msub><mi>b</mi><mn>1</mn></msub><mo>,</mo><msub><mi>b</mi><mn>2</mn></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><msub><mi>b</mi><mrow><mfrac><mrow><mi>m</mi><mo>+</mo><mn>1</mn></mrow><mn>2</mn></mfrac><mo>-</mo><mn>1</mn></mrow></msub><mo>=</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>-</mo><mfrac><mrow><mi>m</mi><mo>+</mo><mn>1</mn></mrow><mn>2</mn></mfrac><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo></mrow>]]></math><img file="FSB0000138806400000013.GIF" wi="539" he="112" /></maths><maths num="0003" id="cmaths0003"><math><![CDATA[<mrow><msub><mi>b</mi><mrow><mfrac><mrow><mi>m</mi><mo>+</mo><mn>1</mn></mrow><mn>2</mn></mfrac><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><msub><mi>b</mi><mi>m</mi></msub><mo>=</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>+</mo><mi>m</mi></mrow></msub><mo>,</mo><msub><mi>b</mi><mfrac><mrow><mi>m</mi><mo>+</mo><mn>1</mn></mrow><mn>2</mn></mfrac></msub><mo>=</mo><msub><mi>x</mi><mrow><mi>i</mi><mo>+</mo><mi>m</mi></mrow></msub><mo>,</mo></mrow>]]></math><img file="FSB0000138806400000014.GIF" wi="717" he="125" /></maths>r=r‑1,回到步骤C;步骤I、针对不同的商品A<sub>e</sub>经过步骤B到步骤H后可以得到修复后的数据集<maths num="0004" id="cmaths0004"><math><![CDATA[<mrow><mover><mi>X</mi><mo>^</mo></mover><mo>=</mo><mo>{</mo><msub><mover><mi>A</mi><mo>^</mo></mover><mn>1</mn></msub><mo>,</mo><msub><mover><mi>A</mi><mo>^</mo></mover><mn>2</mn></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><msub><mover><mi>A</mi><mo>^</mo></mover><mi>k</mi></msub><mo>}</mo><mo>,</mo></mrow>]]></math><img file="FSB0000138806400000015.GIF" wi="429" he="82" /></maths>设<maths num="0005" id="cmaths0005"><math><![CDATA[<mrow><msub><mover><mi>A</mi><mo>^</mo></mover><mn>2</mn></msub><mo>=</mo><mo>{</mo><msub><mover><mi>x</mi><mo>^</mo></mover><mn>1</mn></msub><mo>,</mo><msub><mover><mi>x</mi><mo>^</mo></mover><mn>2</mn></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><msub><mover><mi>x</mi><mo>^</mo></mover><mi>n</mi></msub><mo>}</mo><mo>;</mo></mrow>]]></math><img file="FSB0000138806400000016.GIF" wi="423" he="85" /></maths>步骤J、求扰动窗口长度为L的<img file="FSB0000138806400000017.GIF" wi="48" he="70" />的平均值<img file="FSB0000138806400000018.GIF" wi="278" he="129" />步骤K、设回归方程为y=aq<sup>2</sup>+bq+c,定义扰动因子<img file="FSB0000138806400000019.GIF" wi="199" he="141" />并求S<sub>t</sub>;步骤L、求<maths num="0006" id="cmaths0006"><math><![CDATA[<mrow><msub><mi>y</mi><mn>1</mn></msub><mo>=</mo><mfrac><msub><mover><mi>x</mi><mo>^</mo></mover><mrow><mi>n</mi><mo>-</mo><mn>2</mn></mrow></msub><msub><mover><mi>A</mi><mover><mo>^</mo><mo>&OverBar;</mo></mover></mover><mrow><mi>e</mi><mo>,</mo><mi>L</mi></mrow></msub></mfrac><mo>-</mo><mfrac><msub><mover><mi>x</mi><mo>^</mo></mover><mrow><mi>n</mi><mo>-</mo><mn>3</mn></mrow></msub><msub><mover><mi>A</mi><mover><mo>^</mo><mo>&OverBar;</mo></mover></mover><mrow><mi>e</mi><mo>,</mo><mi>L</mi></mrow></msub></mfrac><mo>,</mo><msub><mi>y</mi><mn>2</mn></msub><mo>=</mo><mfrac><msub><mover><mi>x</mi><mo>^</mo></mover><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></msub><msub><mover><mi>A</mi><mover><mo>^</mo><mo>&OverBar;</mo></mover></mover><mrow><mi>e</mi><mo>,</mo><mi>L</mi></mrow></msub></mfrac><mo>-</mo><mfrac><msub><mover><mi>x</mi><mo>^</mo></mover><mrow><mi>n</mi><mo>-</mo><mn>2</mn></mrow></msub><msub><mover><mi>A</mi><mover><mo>^</mo><mo>&OverBar;</mo></mover></mover><mrow><mi>e</mi><mo>,</mo><mi>L</mi></mrow></msub></mfrac><mo>,</mo><msub><mi>y</mi><mn>3</mn></msub><mo>=</mo><mfrac><msub><mover><mi>x</mi><mo>^</mo></mover><mi>n</mi></msub><msub><mover><mi>A</mi><mover><mo>^</mo><mo>&OverBar;</mo></mover></mover><mrow><mi>e</mi><mo>,</mo><mi>L</mi></mrow></msub></mfrac><mo>-</mo><mfrac><msub><mover><mi>x</mi><mo>^</mo></mover><mrow><mi>n</mi><mo>-</mo><mn>1</mn></mrow></msub><msub><mover><mi>A</mi><mover><mo>^</mo><mo>&OverBar;</mo></mover></mover><mrow><mi>e</mi><mo>,</mo><mi>L</mi></mrow></msub></mfrac><mo>;</mo></mrow>]]></math><img file="FSB00001388064000000110.GIF" wi="926" he="144" /></maths>步骤M、令q的取值分别为1,2和3时y的值分别为y<sub>1</sub>,y<sub>2</sub>和y<sub>3</sub>,求得a=(y<sub>1</sub>‑2y<sub>2</sub>+y<sub>3</sub>)/2,b=(‑3y<sub>1</sub>+4y<sub>2</sub>‑3y<sub>3</sub>)/2,c=3y<sub>1</sub>‑3y<sub>2</sub>+y<sub>3</sub>;步骤N、求q的取值为4时y的值为y<sub>4</sub>,y<sub>4</sub>=aq<sup>2</sup>+bq+c;步骤P、求扰动因子S<sub>t+1</sub>=y<sub>4</sub>+S<sub>t</sub>;步骤Q、求得预测值<img file="FSB00001388064000000111.GIF" wi="273" he="77" />步骤R、重复步骤J到步骤Q,可以得到数据集X中所有商品的预测值。
地址 223003 江苏省淮安市高教园区枚乘东路1号