第38卷 第8期2014年4月25
日Vol.38 No.8
Ar.25,2014p
:/DOI10.7500AEPS20130601001
基于云计算技术的电力大数据预处理属性约简方法
曲朝阳,陈 帅,杨 帆,朱 莉
()东北电力大学信息工程学院,吉林省吉林市132012
摘要:针对大数据时代下电网数据体量大、类型多、速度快的特点,传统的属性约简方法已经无法
完成对电力大数据的预处理,为此提出一种基于云计算技术的电力大数据预处理属性约简方法。该方法剖析了粗糙集中相对正域理论的特性,利用MaReduce模型设计了可以并行计算正域中元p素个数的属性约简算法MP_在HPOSRS。最后,adoop平台上对电网故障诊断表和风电实测数据进行属性约简,实验结果表明,该方法有效可行,并具有较好的加速比和可扩展性,适用于电力大数据预处理属性约简。
;粗糙集;属性约简关键词:电力大数据;MaReducep
0 引言
随着电力大数据时代的来临,电力企业信息化与智能电力系统的建成将使电力数据的体量以前所
未有的速度增长;电力大数据应用中,对行业内外诸如能源、天气等数据的关联分析都将直接导致电力数据类型的增加;电力大数据实时处理的特征使其
1]
。有效利用软分析的速度要求更高[对数据处理、
降低投入,节约成本,及时地从数据海洋硬件资源,
济,而系统中新节点的加入将导致重新组织数据库
以均衡负载,这些都使关系数据库(并行数据库)的但系统的扩展性是扩展性遇到了前所未有的障碍,
9]
,大数据分析的重要前提[所以基于关系数据库技术的属性约简方法无法胜任电力大数据处理的要
求。
电力云为有效利用软硬件资源、处理海量增长的电力数据提供了新途径。云计算技术之一的MaReduce是Goole提出的一种并行编程模型,pg
可以实现大规模数据集的并行处理。
本文深入研究了M对粗糙aReduce编程模型,p集相对正域理论及现有的知识约简算法进行剖析,利用相对正域的性质,给出了电力大数据预处理属性约简中的相关定义和定理,结合MaReduce模型p
设计了并行计算电力大数据集相对正域势的算法
并利用HMP_POSRS,adoop平台实现了云环境下的电力大数据预处理属性约简算法。实验结果表
明,该算法不仅能够高效地进行电力大数据集属性约简计算,而且具有较好的可扩展性。
,中挖掘出知识“金块”使工作人员获得有效的电网
管控决策的高层次知识,是大数据时代电网管控的一个重要难题。解决上述难题的有效途径之一是对电力大数据进行预处理,包括数据清洗、集成、转换与约简。
在实际电网数据分析中,影响最终决策目标的
找出这些决定性因素对降低数因素可能并非全部,
提高数据分析效率具有重要作用,如文据处理规模,
]献[中使用经典粗糙集理论约简出影响风速的关2键属性,并在风速预测中取得了良好的效果。传统的数据约简算法虽然在降低时间复杂度、提高效率
]36-
,方面取得了显著效果[但是,这些属性约简算法
均假设所有数据一次性装入内存中,显然无法处理
1 电力知识表达系统相关定义及定理
定义1 设电力决策信息表S=(为U,A,V,f)
一个电力知识表达系统,其中U为对象集合,A=C
电力大数据。文献[中的基于传统关系数据库78]-技术的属性约简方法在处理小规模属性约简问题时
表现出了良好的时间性能,但是这些方法可处理的数据规模和时效均受到硬件的严重制约。通过增加或更换C内存、硬盘等纵向扩展方式十分不经PU、
C为条件属性集,D为决策属性集,V为属性∪D,
值集合,其指定每个对象的属性值。f为信息函数,
定义2 令P,QA,P∩Q=,Q的P正域(,即p相对正域)记为pQ)Q)=ososP(P(PX,Q的P正域是U中所有根据分类U/P∪X∈U/Q
-
;修回日期:。收稿日期:2013060120140114----)。国家自然科学基金资助项目(51077010,51277023
的信息可以准确地划分到关系Q的等价类中去的
()对象集合。C表示Q的P正域中包ountosQ)pP(
—67—
()2014,388
含的元素个数,也称为Q的P正域的势。定义3 令P,如果QA,P∩Q=,r∈P,,则称r为P中Q不必要的,}(osQ)=posQ)pP(P-{r
否则r为P中Q必要的。P中所有Q必要的属性
。构成的集合称为P的Q核,记为coreP)Q(
定义4 令P,任意的QA,P∩Q=,都是P中Q必要的,称P为Q独立的。若a(a∈P)
,有p则P的Q独立子集RP,Q)=posQ)osR(P(
称R为P的Q约简。
定义5 令P,对任意QA,P∩Q=,EP,的r∈P,属性r相对于E的重要性定义为:
)(osQ)E(()Impr=1-C()}(ountQ)ospE∪{r()为C}(osImr)ountQ) 由此定义易知,pp(E∪{r
上的单调递增函数。
定理1 设S=(为一个电力知识表U,A,V,f)达系统,osP,QA,P∩Q=,RP,Q)=pR(
)=ososQ)的充要条件是:Count(Q)ppP(R(
()。osCountQ)pP(
必要性证明:由p可知,osQ)=posQ)Q的R(P(
()则CR正域与Q的P正域相同,ountQ)=ospR(
()。CountosQ)pP(
充分性证明:利用反证法,假设posQ)≠R(
,由RP及定义3易知,Q)Q)ososppP(R(。osQ)pP(
,因为p所以posQ)osQ)osQ)≠pR(P(R(
,因此C(Q))<osQ)ount(pospP(R(),()与条件CCountQ)ountQ)=CountososppP(R((),矛盾,所以p证明完ososQ)Q)=posQ)pP(R(P(毕。
定理2 设S=(为一个电力知识表U,A,V,f)达系统,A=C∪D,C∩D=,C为条件属性集,D为决策属性集,核属性)的充要条a∈C是必要属性(
()()。件是CountD)ountD)osos≠CppC-{a}(C(
必要性证明:则由定义4可知a为核属性,
,由定理1可知D)≠pD)osospC-{a}(C(
()()。CountosD)ountosD)≠CppC-{a}(C(
()充分性证明:因为CountosD)ount≠CpC-{a}(
(),;由定理1可知posososD)D)D)≠ppC(C-{a}(C(由定义4可知a为核属性。
定理3 设S=(为一个电力知识表U,A,V,f)达系统,A=C∪D,C∩D=,C为条件属性集,D为决策属性集,则E是C的一个约简的充要EC,
()()。条件是:CountD)=CountD)ososppE(C(
该定理由定义5和定理1容易得证,证法与定理2证明类似。—68—
从上述定义和定理可以看出,利用粗糙集理论
求一个电力知识表达系统S的属性约简,由求正域问题转化为求决策属性子集在条件属性子集上正域的势的问题。这样避免了使用正域方法计算属性约减小了计算量,也避免了建立可简的一些繁琐操作,
分辨矩阵消耗的大量时间和空间开销,更重要的是,计算正域的势实际上就是计算等价类问题,而不同
这就解决了传统属性约的等价类是可并行计算的,
简方法因内存限制不能处理大数据集的问题。下面给出基于云计算技术的电力大数据预处理属性约简
方法。
2 基于MaReduce技术的电力大数据预处p理属性约简
将一个电力大数据集视为一个电力知识表达系统,则求影响指定决策属性集的条件属性,即求此电力大数据集的属性约简问题就转化为计算正域的势的问题。利用MaReduce计算上述问题方法如下:p根据需求,提取属map函数同时访问多个数据分片,
,〉性及属性值,形成〈键值对(表示意义如kevaluey
〈“”,〉)。RCO11故障区域Sec11educe函数接收来 自不同节点maep发送的ky值相同的键值对序列,计算相同等价类的个数。
Hadoop在处理复杂任务时的思想是增加任务数,而不是增加m所以aeduce函数的复杂性,p和r
在云环境下的电力大数据预处理属性约简算法中,、_分别设计了2个ma3个reduce1个callob函p、j
数和主程序。下面给出各算法的描述。
)算法1:1map函数
输入条件属性C,决策属性D,对象X。步骤1:
。步骤2:foreachobectxdo j步骤3:将x存i的C和D属性及属性值提取,
入key中。
,〉。步骤4:输出〈ke1y
)算法2:2map函数
步骤1:输入前次MaReduce任务的结果。p
,〉。步骤2:读出HDFS中的键值对〈kevaluey,〉。步骤3:输出〈kevaluey
)算法3:3reduce函数
,_步骤1:输入makevaluesp聚类后的结果〈y〉。list
步骤2:sum=0。),步骤3:fori=1tovalue_list.size(sum=
_[]。sum+valuelisti
步骤4:去掉key中D属性及其属性值。
步骤5:value=sum。
·研制与开发· 曲朝阳,等 基于云计算技术的电力大数据预处理属性约简方法
,〉。步骤6:输出〈kevaluey
bbs.99jianzhu.com内容:建筑图纸、PDF/word 流程,表格,案例,最新,施工方案、工程书籍、建筑论文、合同表格、标准规范、CAD图纸等内容。