,输入m步骤1:akevalues_p聚类后的结果〈y〉。list
_()步骤2:去掉kifvaluelist.size=1,e y中C的属性值。
,〉。步骤3:输出〈kevaluey
)算法5:5reduce函数
,步骤1:输入makevalues_p聚类后的结果〈y
〉。list
步骤2:sum=0。),步骤3:fori=1tovalue_list.size(sum=
_[]。sum+valuelisti
步骤4:value=sum。
,〉。步骤5:输出〈kevaluey)_算法6:ob函数6callj步骤1:输入条件属性C,决策属性D,对象X。步骤2:启动一个j执行算法1和算法3(计ob,
。算PIS中的等价类)步骤3:启动一个j执行算法2和算法4(计ob,
。算条件属性每组属性值可辨识对象的个数)步骤4:启动一个j执行算法2和算法5(计ob,
。算条件属性子集可辨识对象的个数)
),步骤5:取出vosalue赋给Count(D)pC(
()value为空则CountosD)=0。pC(
()。步骤6:输出CountD)ospC(
)算法7:主程序MP_7POSRS
步骤1:输入PIS。步骤2:core=。
步骤3:首先调用c其次计算all_ob函数,j()。CountosD)pC(
,步骤4:fori=1ton(n为条件属性总个数)
;首先调用c其次计算R=C-{call_ob函数,ji});)!=Count(osD)if(Count(osD)ppR(R(()),CountD)core=corecos∪pC(i。
。步骤5:E=core步骤6:首先调用c其次计算all_ob函数,j()。CountD)ospE(
)!=步骤7:while(Count(D)ospE(
()),_调用cCountosD)foreachr∈C-E,allob pjC((D));取函数,计算C}ount(ospE∪{r()最大时r的值(若存在多个,则}(CountosD)pE∪{r;;)=任取其一)E=E∪{r}Count(D)ospE((())。}(maxCountosD)pE∪{r
输出E。 步骤8:
从算法7中可以看出,求核的时间复杂度为()),求约简的时间复杂度为O(U|C|||+1()/),所以算法的时间复杂度是O(U|CC2|||||+1
(/,为O(即二者之和,U|(CC2)|||+1)||+2)
2
。用p表示节点数,由mO(U|Ca|||)p的工作方
/式可知,算法的空间复杂度为O(则本U|C|||)p,2
/空间文并行算法的时间复杂度为O(U|C|||)p,
)。复杂度为O(U|C|||
3 实验分析
10]
,传统的知识约简方法无法处理大数据集[所
以本节不与传统方法作对比,仅从算法的正确性、节11]
(点数目的影响[即可扩展性和加速比)两个方面
讨论其在电力大数据预处理中的应用。
3.1 正确性
用一个电网故障诊断的决策表说明本文算法的核心计算过程及正确性。表1是由7个样本组成的
12]
,电网故障诊断决策表[其中故障区域(为决FA)
策属性,其余为条件属性。
表1 电网故障诊断决策表
owerridTable1 Adecisiontableoffaultdianosis pgg
样本序号CB1
1 2 3 4 5 6 7
1 0 0 1 1 1 0
CB20 1 0 0 0 0 0
CB3CO1RR1CO2CO30 0 1 0 0 0 0
1 0 0 0 0 0 0
0 0 0 1 1 1 0
0 1 0 1 0 0 0
0010100
FASec1Sec2Sec3Sec2Sec3Sec23-NO
假设将此表分为样本对象1至4和样本对象5
至7两个数据分片,下面通过图1描述本文算法并行计算其中FA的CO2正域的势的主要过程。将图1标记为6个部分,①是表1的2个数据分片,①→②是通过算法1得到的,②→③是通过算法3得到的,③→④→⑤是通过算法2和算法4得到的,
整个并行计⑤→⑥是通过算法2和算法5得到的(
。图1所算过程也可以看成是通过算法6完成的)
示的并行计算过程理论依据为定义1,2及定理1,该并行计算过程是算法7依据定义3,4,5以及定理2,3计算核和约简的核心过程。为节省资源,并看到一些分布式处理的效果,采用伪分布模式运行H得到了决策表的adoop程序,核为{及一个约简{CO2,CO3}CO2,CO3,CB1,
}。检验可知,此结果正确。CO1
—69—
()2014,388
图1 CO2相对正域的势并行计算过程
Fi.1 ComutincardinalitofCO2relativereionbositivearallelrocessin gpgygypppg
3.2 节点数目的影响
本文采用Hadoo6台笔p平台搭建了一个由1
其中,记本电脑组成的集群实验环境,Hadoop的版,本为H笔记本电脑的最高配置为双adoo0.20.0-p
、核2.最低配置为双50GHz4GB内存、1TB硬盘,、核2.00GHz1.5GB内存、160GB硬盘。实验数据为风电实测数据,包含1大小为24个属性,4GB。
采用文献[中的方法,完成实验数据的抽取、转13],换、加载(使用相邻数据的平均值对空缺值进ETL)
将数据离散化为一系列0,以提高数行填充,1列表,据处理效率,进而得到了具有13个条件属性、1个
决策属性的电力知识表达系统S。
)可扩展性1
可扩展性是按节点数成比例增大数据规模时并行算法的性能。为测试算法的可扩展性,从实验数据中取出2.5,5,10,20GB四个样本作为测试数据
分别在2,集,4,8,16个节点上进行规模和时效对比实验,结果如图2所示。从图中可以看出,虽然由于硬件和平台运行资源消耗的原因,节点数增加到16时算法性能略微下降,但这些作业的运行时间基本保持了相同的水平,这体现出本文并行算法良好的可扩展性
。
为2,从图中的约简时间和节4,8,16。如图3所示,
点数目的关系可以看出,本文并行算法获得了良好的加速比性能
。
图3 加速比测试
Fi.3 Seeduratiotest- gpp
4 结语
电力大数据时代已经来临,传统的属性约简算法在处理小数据集时表现出了优良的时间和空间性
能,但是,在电力大数据预处理属性约简中难以满足需求。本文面向电力大数据预处理中的属性约简问题,剖析了粗糙集中属性约简理论,利用正域的性质,提出了可以并行计算正域中元素个数的属性约简算法,并使用Hadoop平台在计算机集群上进行了实验。实验结果表明,本文提出的属性约简算法具有较好的可扩展性和加速比,可以处理电力大数据集。下一步工作的重点将是研究大数据集最佳属性约简的寻优方法,以便使其能够更好地应用于电力大数据分析、处理和电网管控决策中。
参考文献
图2 可扩展性测试
Fi.2 Exansibilittestgpy
[]中国电机工程学会信息化专委会.中国电力大数据发展白皮书1
[]S.2013.
[]高爽,]冬蕾,高阳,等.基于粗糙集理论的中长期风速预测[中2J.
():国电机工程学报,2012,3213236.-
,D,GAO,ShuanONGLeiYanetal.MidlontermGAO -ggg windeedredictionasednouhetheorJ]. s p b o r s tpgy[():ProceedinsoftheCSEE,2012,3213236. -g
[]胡峰,]王国胤.属性序下的快速属性约简算法[计算机学报,3J.
():2007,30814291435.-
,WANGFenGuoin.QuickreductionalorithmbasedonHU gyg
)加速比2
加速比是数据规模固定,不断增加节点数时并行算法的性能。理想的加速比是线性的,但由于计算机间通信、任务调度等开销,实际的加速比将低于理想情况。测试数据集大小为2节点数分别0GB,—70—
·研制与开发· 曲朝阳,等 基于云计算技术的电力大数据预处理属性约简方法
,2attributeorder[J].ChineseJournalofComuters007, p():30814291435.-
[]陈昊,杨俊安,庄镇泉.变精度粗糙集的属性核和最小属性约简4
]():算法[计算机学报,J.2012,35510111016.-
,’CHEN HaoYANGJunan,ZHUANGZhenuan.Thecoreof qandminimalattributesreductioninvariableattributesrecision p],2:rouhset[J.ChineseJournalofComuters012,35(5) gp10111016.-
[]王熙照,]王婷婷,翟俊海.基于样例选择的属性约简算法[计5J.
():算机研究与发展,2012,491123052310.-
,WANG,WANGXizhaoTintinZHAIJunhai.Anattribute gg]alorithmbasedoninstanceselection[J.Journalofreduction g,2:Comuteresearchndeveloment012,49(11) R a Dpp23052310.-
bbs.99jianzhu.com内容:建筑图纸、PDF/word 流程,表格,案例,最新,施工方案、工程书籍、建筑论文、合同表格、标准规范、CAD图纸等内容。