第35卷 第1期 2015年1月5日 中 国 电 机 工 程 学 报
Proceedings of the CSEE Vol.35 No.1 Jan.5, 2015 ?2015 Chin.Soc.for Elec.Eng.
37
(2015) 01-0037-06 中图分类号:TM 715 DOI:10.13334/j.0258-8013.pcsee.2015.01.005 文章编号:0258-8013
海量数据下的电力负荷短期预测
张素香1,赵丙镇1,王风雨2,张东3
(1.国家电网公司信息通信分公司,北京市 西城区 100761;2.北京国电通网络技术有限公司,
北京市 丰台区 100070;3.国家电网公司农电工作部,北京市 西城区 100031)
Short-term Power Load Forecasting Based on Big Data
ZHANG Suxiang1, ZHAO Bingzhen1, WANG Fengyu2, ZHANG Dong3
(1. State Grid Information & Telecommunication branch, Xicheng District, Beijing 100761, China; 2. Beijing Guodiantong Networks Technology Co., Ltd., Fengtai District, Beijing 100070, China;
3. State Grid Corporation of China, Xicheng District, Beijing 100031, China)
ABSTRACT: The short-term power load forecasting method had been researched based on the big data. And combined the local weighted linear regression and cloud computing platform, the parallel local weighted linear regression model was established. In order to eliminate the bad data, bad data classification model was built based on the maximum entropy algorithm to ensure the effectiveness of the historical data. The experimental data come from a smart industry park of Gansu province. Experimental results show that the proposed parallel local weighted linear regression model for short-term power load forecasting is feasible; and the average root mean square error is 3.01% and fully suitable for the requirements of load forecasting, moreover, it can greatly reduce compute time of load forecasting, and improve the prediction accuracy. KEY WORDS: big data; cloud computing; load forecasting; local weighted linear regression
摘要:该文研究海量数据下的短期电力负荷预测方法,基于局部加权线性回归和云计算平台,建立并行局部加权线性回归模型。同时,为剔除坏数据,采用最大熵建立坏数据分类模型,保证历史数据的有效性。实验数据来自已建的甘肃某智能园区。实验结果表明,提出的并行局部加权模型用于短期电力负荷预测是可行的,平均均方根误差为3.01%,完全满足负荷预测的要求,并极大地减少了负荷预测时间,提高预测精度。
关键词:大数据;云计算;负荷预测;局部加权线性回归
济运行方面具有十分重要的意义。在我国经济高速发展的今天,解决电力负荷预测问题已成为重要而艰巨的任务。高质量的负荷预测需要准确的数学模型,随着现代技术的不断进步和智能用电的深入[1],负荷预测理论与技术得到很大发展,理论研究逐步深入[2-3]。多年来,电力负荷预测理论和方法不断涌现,神经网络[4-7]、时间序列[8-9]、贝叶斯[10]、模糊理论[11]、小波分析[12]、回归分析[13-14]、支持向量 机[15]等技术为电力负荷预测提供了有力的工具。但目前已有的方法仍具有局限性。神经网络方法:一是无法避免在训练过程中产生的学习不足或者是过拟合现象;二是收敛速度慢且易陷入局部极小。时间序列法:对历史数据准确性要求高,短期电力负荷预测时对天气因素不敏感,难以解决因气象因素造成的短期负荷预测不准确问题。回归分析方法是在统计平均意义下定量地描述所观察变量之间的数量关系,往往对数据量有所限制。
随着智能用电海量数据的涌现,必须要寻找一种新的方法满足海量用电大数据分析的要求。目前已有的预测算法无法满足预测速度和预测精度的要求,传统的局部加权线性回归预测用于小数据预测时,具有训练速度快、预测误差率小等优点。但是当数据量非常大时,由于该算法需要为每个测试点寻找近邻,运算量很大,单机运算的时间会达到几个小时或者几天。因此,解决海量数据基础上的预测问题显得十分重要。
本文以智能工业园区海量数据为基础,将局部加权线性回归预测算法和云计算Mapreduce模型相
0 引言
电力负荷预测在保证电力系统规划与可靠、经
基金项目:国家863高技术基金项目(2011AA05A116)。
The National High Technology Research and Development of China 863 Program (2011AA05A116).
38 中 国 电 机 工 程 学 报 第35卷
结合展开短期电力负荷预测方法研究。该方法首先将海量数据分割成多个数据子块,然后通过云平台将各子块的数据同时进行分析和处理,最后将结果进行归并,该处理过程降低了海量数据的时间处理开销。同时,本文对枚举型数据也进行了处理,并将其加入到距离计算中,提高了预测的准确率。
1.2 基于云计算的局部加权线性回归算法实现 1.2.1 系统结构
从1.1节描述可以看出传统局部加权线性回归算法存在严重缺陷,即当待回归数据增多时,从海量数据中确定近邻数据点集合而产生的计算量是非常巨大的。本文结合云计算技术,将LWLR算法和MapReduce模型框架相结合,实现电力负荷并行预测。
MapReduce是一种处理海量数据的并行编程模型和计算框架,它采用一种“分而治之”的思想。因此,本文的并行局部加权线性回归模型包括3个阶段:map阶段、合并阶段、reduce阶段,每个阶段的数据将以<键, 值>的方式进行交换。系统框架如图1所示。
1 基于云计算的局部加权线性回归模型
1.1 传统局部加权线性回归模型
局部加权线性回归(locally weighted linear regression,LWLR)模型以局部数据为基础拟合多项式回归曲线,观察数据在局部展现出来的规律和趋势。确定预测点周围最邻近的数据点,常用的确定局部数据点的方法为K最邻近(k-Nearest Neighbor,KNN)
[16-17]
算法,其主要思想为计算预测点到特征
空间中所有数据点的距离,从中找出距离预测点最近的k个点的集合。
设任意1个实例用X = {s1, s2,???, sn}描述,2个实例X1和X2之间的距离可以用式(1)得到:
d(X1,X2)=
map 阶段reduce 阶段数据节点
数据节点数据节点
建立回归公式:
?(x)=ω+ωa(x)+ωa(x)+"+ωa(x) (2) f01122nn
图1 并行局部加权线性回归系统框架
Fig. 1 Framework of the parallel locally weighted linear
regression
式中 ωi代表根据距离公式(1)计算出的权重大小,其计算公式为
1)map阶段。
首先将输入的数据集合分为若干个数据子集,
数据用<key, value>表示。key是当前数据相对的偏1
ωi= (3)
移量,value值解析成当前数据各个维度的坐标值。d(xq,xi)2
基于局部最小距离算法计算出测试点与数据子集
式中:xq为预测点;xi为xq的临近点;两者之间距
的最近k个中心点的距离,其运算中间结果将被放
离的倒数为权重的大小。
入中间库中。
在式(2)中,ω0为回归常数项,ω1、ω2、???、
2)合并阶段。
ωn为回归系数,f?(x)为回归预测值。αi(x)表示实
该阶段的任务即将处理完后的数据进行本地
例x的第i个属性值。在拟合以上形式的线性函数
层级合并。将中间键值对集合重新排序产生一个新
到给定的训练集合时,通常采用梯度下降方法,找
的二元组,相同的键值将被归为一类。
到使误差最小化的系数 ω1、ω2、???、ωn,即满足:
3)reduce阶段。
1?(x))2 (4) reduce函数首先解析样本个数和相应节点各个(f(x)?f E(x)≡∑2x∈最近点
维度累加的坐标值,计算出各个数据子集中离预测
通过满足误差准则满足局部逼近,得到梯度下点最近的k个点,并基于混合高斯模型计算出各属
降训练法则: Δωj≡η
x∈x 的 k 个最近点
性的加权值,该结果将被更新到分布式文件系统中
?(x))a(x) (5) K(d(xq,x))(f(x)?fj
∑
并进行下一次迭代直至算法收敛。
1.2.2 数据来源与处理
1)数据采集网络架构。
式中 η 为学习速率。
第1期 张素香等:海量数据下的电力负荷短期预测 39
如图2所示的数据采集网络通过在用能设备信息计量点上部署计量设备,利用工业总线将数据进行集中到采集点,并与不同通信网络对接。采集的数据类型包括用电设备的电能基本参数和电能质量信息等,同时还包括温度、流量等其他能源数据的采集,实现了多能源、全覆盖的数据信息采集。
推论,它能产生最优化和唯一无偏估计值p*。
p*=argmaxH(p) (7)
p∈C
式中H(p)为模型p*下的熵。
本文数据为时间序列数据,因此,首先进行归一化处理,然后送入最大熵模型中迭代。所有元素按照公式(8)进行标准归一化处理。
ri=
xi?min(xi)
(8)
max(xi)?min(xi)
3)枚举型数据。
本文将时间、温度等数据用于并行LWLR算法,但由于以上数据具有连续特点,本文将其转化为向量。如时间类数据:一周为7天,向量的维度为7,则设时间向量为{t1, t2,???, t7},如星期日被表示为向量{0, 0, 0, 0, 0, 0, 1}。
图2 数据采集网络架构图
Fig. 2 Architecture of data collection network
1.2.3 基于云计算的LWLR预测算法
基于MapReduce的LWLR预测算法如图4所示。在LWLR算法中,首先解决Map个数问题。通过读取数据源及其数据结构、并行度、增量字段、异常处理方式等多种参数信息,并根据增量字段当前的最大值对数据集进行划分和调整,确定Map个数。其次,利用KNN,对每个Map所处理的数据块选择离预测点最近的K个点;最后将每个Map的K个点与预测点进行距离比较,筛选出最小的K个点,并基于混合高斯模型计算权重,确定参数,
bbs.99jianzhu.com内容:建筑图纸、PDF/word 流程,表格,案例,最新,施工方案、工程书籍、建筑论文、合同表格、标准规范、CAD图纸等内容。