一种海量负荷曲线的分布式聚类方法,申请号CN201510747122.1-传众专利搜索

发明名称	一种海量负荷曲线的分布式聚类方法
摘要	本发明公开了一种海量负荷曲线的分布式聚类方法，其通过将受聚类区域内所有用户划分为M个用户子集，并对应每一个用户子集设置一个局部数据中心，用各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类，以减少待分析的用电数据，再对应所述受聚类区域设置一个全局数据中心，并全局数据中心对接收到的所有局部典型曲线进行全局的聚类分析，从而使得每一个局部数据中心的每一条原始日负荷曲线能够归属到相应的全局聚类。本发明能够在确保预定聚类精度的情况下，有效提高体量大、分布广的海量日负荷曲线用电数据的聚类效率、减少数据处理时间、减少对计算内存的需求、降低数据的通讯开销和存储成本。
申请公布号	CN105447082A	申请公布日期	2016.03.30
申请号	CN201510747122.1	申请日期	2015.11.04
申请人	广东电网有限责任公司电力科学研究院	发明人	林国营;杨骏伟;谭跃凯;曾智健;朱文俊;罗敏;阙华坤;谭伟聪;王毅
分类号	G06F17/30(2006.01)I;G06Q50/06(2012.01)I	主分类号	G06F17/30(2006.01)I
代理机构	广州知友专利商标代理有限公司 44104	代理人	尤健雄;周克佑
主权项	一种海量负荷曲线的分布式聚类方法，包括：步骤S1，将受聚类区域内所有用户划分为M个用户子集，并对应每一个用户子集设置一个局部数据中心，用各个局部数据中心分别采集对应用户子集中每一个用户在预设天数内的原始日负荷曲线，其中，M为大于1的正整数，每一个用户子集中至少包含一个用户，每一条原始日负荷曲线包含的负荷采集点数量均为T；步骤S2，用所述各个局部数据中心分别对各自采集到的每一条原始日负荷曲线进行校验和归一化处理，得到归一化日负荷曲线；步骤S3，在所有的所述局部数据中心设置相同的最小聚类数量Kmin、最大聚类数量Kmax和聚类误差指标B，并用所述各个局部数据中心分别对各自处理得到的归一化日负荷曲线进行自适应局部聚类，得到每一个局部数据中心的局部聚类和局部典型曲线，其中，任意一个所述局部数据中心进行自适应局部聚类的步骤包括：步骤S31，对该局部数据中心处理得到的所有归一化日负荷曲线进行k取值为Kmin的k‑means聚类分析，得到Kmin个聚类，并将该Kmin个聚类标记为未检验聚类；步骤S32，对该局部数据中心的未检验聚类进行检验，判断其是否满足所述聚类误差指标B，其中，判断步骤S31得到的第j个聚类是否满足所述聚类误差指标B即判断该第j个聚类是否满足以下条件式(2)的约束：<math><![CDATA[<mrow><msub><mi>E</mi><mi>j</mi></msub><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>T</mi></munderover><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></munderover><msup><mrow><mo>(</mo><msubsup><mi>p</mi><mrow><mi>j</mi><mi>i</mi></mrow><mi>t</mi></msubsup><mo>-</mo><msubsup><mi>C</mi><mi>j</mi><mi>t</mi></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mo>≤</mo><mi>B</mi><mo>-</mo><mo>-</mo><mo>-</mo><mrow><mo>(</mo><mn>2</mn><mo>)</mo></mrow></mrow>]]></math><img file="FDA0000838869150000011.GIF" wi="629" he="99" /></maths>式中，j为正整数且1≤j≤Kmin，E<sub>j</sub>表示第j聚类的总代表误差，N表示属于第j聚类的归一化日负荷曲线的数量，<img file="FDA0000838869150000012.GIF" wi="59" he="78" />为第j聚类的聚类中心的第t个负荷采集点，<img file="FDA0000838869150000013.GIF" wi="73" he="78" />为属于第j聚类的第i条归一化日负荷曲线的第t个负荷采集点，i为正整数且1≤i≤N，t为正整数且1≤t≤T；步骤S33，当步骤S32中对一个未检验聚类进行检验的判断结果为是时，将满足所述聚类误差指标B的未检验聚类标记为已检验聚类；当步骤S32中对一个未检验聚类进行检验的判断结果为否时，对该不满足所述聚类误差指标B的未检验聚类进行k取值为2的k‑means聚类分析，使得该不满足所述聚类误差指标B的未检验聚类再次聚类划分为两个新的聚类并将该两个新的聚类标记为未检验聚类；步骤S34，重复步骤S32和步骤S33，直至该局部数据中心的所有未检验聚类均已标记为已检验聚类或者该局部数据中心的包含未检验聚类和已检验聚类的聚类总数量达到最大聚类数量Kmax，并将此时该局部数据中心的所有聚类均标记为该局部数据中心的局部聚类，将局部聚类的聚类中心标记为局部典型曲线；步骤S4，对应所述受聚类区域设置一个全局数据中心，用该全局数据中心接收所述M个局部数据中心得到的局部典型曲线；步骤S5，在所述全局数据中心设置全局聚类数量X，用该全局数据中心对接收到的所有局部典型曲线进行k取值为X的k‑means聚类分析，得到X个全局聚类；步骤S6，根据所述局部典型曲线和全局聚类之间的聚类归属关系，用所述全局数据中心分别向所述各个局部数据中心发送相应的聚类分配指令，使得每一个所述局部数据中心能够根据接收到的聚类分配指令、所述归一化日负荷曲线和局部聚类之间聚类归属关系以及所述原始日负荷曲线与归一化日负荷曲线之间的对应关系，将该局部数据中心的每一条原始日负荷曲线归属到相应的全局聚类。
地址	510080 广东省广州市越秀区东风东路水均岗8号