基于云计算技术的电力大数据预处理属性约简方法_曲朝阳(2)

，输入ｍ步骤１：ａｋｅｖａｌｕｅｓ＿ｐ聚类后的结果〈ｙ〉。ｌｉｓｔ

＿（）步骤２：去掉ｋｉｆｖａｌｕｅｌｉｓｔ．ｓｉｚｅ＝１，ｅ　ｙ中Ｃ的属性值。

，〉。步骤３：输出〈ｋｅｖａｌｕｅｙ

）算法５：５ｒｅｄｕｃｅ函数

，步骤１：输入ｍａｋｅｖａｌｕｅｓ＿ｐ聚类后的结果〈ｙ

〉。ｌｉｓｔ

步骤２：ｓｕｍ＝０。），步骤３：ｆｏｒｉ＝１ｔｏｖａｌｕｅ＿ｌｉｓｔ．ｓｉｚｅ（ｓｕｍ＝　　

＿［］。ｓｕｍ＋ｖａｌｕｅｌｉｓｔｉ

步骤４：ｖａｌｕｅ＝ｓｕｍ。

，〉。步骤５：输出〈ｋｅｖａｌｕｅｙ）＿算法６：ｏｂ函数６ｃａｌｌｊ步骤１：输入条件属性Ｃ，决策属性Ｄ，对象Ｘ。步骤２：启动一个ｊ执行算法１和算法３（计ｏｂ，

。算ＰＩＳ中的等价类）步骤３：启动一个ｊ执行算法２和算法４（计ｏｂ，

。算条件属性每组属性值可辨识对象的个数）步骤４：启动一个ｊ执行算法２和算法５（计ｏｂ，

。算条件属性子集可辨识对象的个数）

），步骤５：取出ｖｏｓａｌｕｅ赋给Ｃｏｕｎｔ（Ｄ）ｐＣ（

（）ｖａｌｕｅ为空则ＣｏｕｎｔｏｓＤ）＝０。ｐＣ（

（）。步骤６：输出ＣｏｕｎｔＤ）ｏｓｐＣ（

）算法７：主程序ＭＰ＿７ＰＯＳＲＳ

步骤１：输入ＰＩＳ。步骤２：ｃｏｒｅ＝。

步骤３：首先调用ｃ其次计算ａｌｌ＿ｏｂ函数，ｊ（）。ＣｏｕｎｔｏｓＤ）ｐＣ（

，步骤４：ｆｏｒｉ＝１ｔｏｎ（ｎ为条件属性总个数）　　

；首先调用ｃ其次计算Ｒ＝Ｃ－｛ｃａｌｌ＿ｏｂ函数，ｊｉ｝）；）！＝Ｃｏｕｎｔ（ｏｓＤ）ｉｆ（Ｃｏｕｎｔ（ｏｓＤ）ｐｐＲ（Ｒ（（）），ＣｏｕｎｔＤ）ｃｏｒｅ＝ｃｏｒｅｃｏｓ∪ｐＣ（ｉ。

。步骤５：Ｅ＝ｃｏｒｅ步骤６：首先调用ｃ其次计算ａｌｌ＿ｏｂ函数，ｊ（）。ＣｏｕｎｔＤ）ｏｓｐＥ（

）！＝步骤７：ｗｈｉｌｅ（Ｃｏｕｎｔ（Ｄ）ｏｓｐＥ（

（）），＿调用ｃＣｏｕｎｔｏｓＤ）ｆｏｒｅａｃｈｒ∈Ｃ－Ｅ，ａｌｌｏｂ　　ｐｊＣ（（Ｄ））；取函数，计算Ｃ｝ｏｕｎｔ（ｏｓｐＥ∪｛ｒ（）最大时ｒ的值（若存在多个，则｝（ＣｏｕｎｔｏｓＤ）ｐＥ∪｛ｒ；；）＝任取其一）Ｅ＝Ｅ∪｛ｒ｝Ｃｏｕｎｔ（Ｄ）ｏｓｐＥ（（（））。｝（ｍａｘＣｏｕｎｔｏｓＤ）ｐＥ∪｛ｒ

输出Ｅ。　　步骤８：

从算法７中可以看出，求核的时间复杂度为（）），求约简的时间复杂度为Ｏ（Ｕ｜Ｃ｜｜｜＋１（）／），所以算法的时间复杂度是Ｏ（Ｕ｜ＣＣ２｜｜｜｜｜＋１

（／，为Ｏ（即二者之和，Ｕ｜（ＣＣ２）｜｜｜＋１）｜｜＋２）

２

。用ｐ表示节点数，由ｍＯ（Ｕ｜Ｃａ｜｜｜）ｐ的工作方

／式可知，算法的空间复杂度为Ｏ（则本Ｕ｜Ｃ｜｜｜）ｐ，２

／空间文并行算法的时间复杂度为Ｏ（Ｕ｜Ｃ｜｜｜）ｐ，

）。复杂度为Ｏ（Ｕ｜Ｃ｜｜｜

３　实验分析

１０］

，传统的知识约简方法无法处理大数据集［所

以本节不与传统方法作对比，仅从算法的正确性、节１１］

（点数目的影响［即可扩展性和加速比）两个方面

讨论其在电力大数据预处理中的应用。

３．１　正确性

用一个电网故障诊断的决策表说明本文算法的核心计算过程及正确性。表１是由７个样本组成的

１２］

，电网故障诊断决策表［其中故障区域（为决ＦＡ）

策属性，其余为条件属性。

表１　电网故障诊断决策表

ｏｗｅｒｒｉｄＴａｂｌｅ１　Ａｄｅｃｉｓｉｏｎｔａｂｌｅｏｆｆａｕｌｔｄｉａｎｏｓｉｓ　　　　　　　　ｐｇｇ

样本序号ＣＢ１

１　２　３　４　５　６　７　

１　０　０　１　１　１　０　

ＣＢ２０　１　０　０　０　０　０　

ＣＢ３ＣＯ１ＲＲ１ＣＯ２ＣＯ３０　０　１　０　０　０　０　

１　０　０　０　０　０　０　

０　０　０　１　１　１　０　

０　１　０　１　０　０　０　

００１０１００

ＦＡＳｅｃ１Ｓｅｃ２Ｓｅｃ３Ｓｅｃ２Ｓｅｃ３Ｓｅｃ２３－ＮＯ

假设将此表分为样本对象１至４和样本对象５

至７两个数据分片，下面通过图１描述本文算法并行计算其中ＦＡ的ＣＯ２正域的势的主要过程。将图１标记为６个部分，①是表１的２个数据分片，①→②是通过算法１得到的，②→③是通过算法３得到的，③→④→⑤是通过算法２和算法４得到的，

整个并行计⑤→⑥是通过算法２和算法５得到的（

。图１所算过程也可以看成是通过算法６完成的）

示的并行计算过程理论依据为定义１，２及定理１，该并行计算过程是算法７依据定义３，４，５以及定理２，３计算核和约简的核心过程。为节省资源，并看到一些分布式处理的效果，采用伪分布模式运行Ｈ得到了决策表的ａｄｏｏｐ程序，核为｛及一个约简｛ＣＯ２，ＣＯ３｝ＣＯ２，ＣＯ３，ＣＢ１，

｝。检验可知，此结果正确。ＣＯ１

—６９—

（）２０１４，３８８

图１　ＣＯ２相对正域的势并行计算过程

Ｆｉ．１　ＣｏｍｕｔｉｎｃａｒｄｉｎａｌｉｔｏｆＣＯ２ｒｅｌａｔｉｖｅｒｅｉｏｎｂｏｓｉｔｉｖｅａｒａｌｌｅｌｒｏｃｅｓｓｉｎ　　　　　ｇｐｇｙｇｙｐｐｐｇ　　　

３．２　节点数目的影响

本文采用Ｈａｄｏｏ６台笔ｐ平台搭建了一个由１

其中，记本电脑组成的集群实验环境，Ｈａｄｏｏｐ的版，本为Ｈ笔记本电脑的最高配置为双ａｄｏｏ０．２０．０－ｐ

、核２．最低配置为双５０ＧＨｚ４ＧＢ内存、１ＴＢ硬盘，、核２．００ＧＨｚ１．５ＧＢ内存、１６０ＧＢ硬盘。实验数据为风电实测数据，包含１大小为２４个属性，４ＧＢ。

采用文献［中的方法，完成实验数据的抽取、转１３］，换、加载（使用相邻数据的平均值对空缺值进ＥＴＬ）

将数据离散化为一系列０，以提高数行填充，１列表，据处理效率，进而得到了具有１３个条件属性、１个

决策属性的电力知识表达系统Ｓ。

）可扩展性１

可扩展性是按节点数成比例增大数据规模时并行算法的性能。为测试算法的可扩展性，从实验数据中取出２．５，５，１０，２０ＧＢ四个样本作为测试数据

分别在２，集，４，８，１６个节点上进行规模和时效对比实验，结果如图２所示。从图中可以看出，虽然由于硬件和平台运行资源消耗的原因，节点数增加到１６时算法性能略微下降，但这些作业的运行时间基本保持了相同的水平，这体现出本文并行算法良好的可扩展性

。

为２，从图中的约简时间和节４，８，１６。如图３所示，

点数目的关系可以看出，本文并行算法获得了良好的加速比性能

。

图３　加速比测试

Ｆｉ．３　Ｓｅｅｄｕｒａｔｉｏｔｅｓｔ－　ｇｐｐ　

４　结语

电力大数据时代已经来临，传统的属性约简算法在处理小数据集时表现出了优良的时间和空间性

能，但是，在电力大数据预处理属性约简中难以满足需求。本文面向电力大数据预处理中的属性约简问题，剖析了粗糙集中属性约简理论，利用正域的性质，提出了可以并行计算正域中元素个数的属性约简算法，并使用Ｈａｄｏｏｐ平台在计算机集群上进行了实验。实验结果表明，本文提出的属性约简算法具有较好的可扩展性和加速比，可以处理电力大数据集。下一步工作的重点将是研究大数据集最佳属性约简的寻优方法，以便使其能够更好地应用于电力大数据分析、处理和电网管控决策中。

参考文献

图２　可扩展性测试

Ｆｉ．２　Ｅｘａｎｓｉｂｉｌｉｔｔｅｓｔｇｐｙ　

［］中国电机工程学会信息化专委会．中国电力大数据发展白皮书１

［］Ｓ．２０１３．

［］高爽，］冬蕾，高阳，等．基于粗糙集理论的中长期风速预测［中２Ｊ．

（）：国电机工程学报，２０１２，３２１３２３６．－

，Ｄ，ＧＡＯ，ＳｈｕａｎＯＮＧＬｅｉＹａｎｅｔａｌ．ＭｉｄｌｏｎｔｅｒｍＧＡＯ　　　　－ｇｇｇ　ｗｉｎｄｅｅｄｒｅｄｉｃｔｉｏｎａｓｅｄｎｏｕｈｅｔｈｅｏｒＪ］．　ｓ　ｐ　ｂ　ｏ　ｒ　ｓ　ｔｐｇｙ［（）：ＰｒｏｃｅｅｄｉｎｓｏｆｔｈｅＣＳＥＥ，２０１２，３２１３２３６．　　　－ｇ

［］胡峰，］王国胤．属性序下的快速属性约简算法［计算机学报，３Ｊ．

（）：２００７，３０８１４２９１４３５．－

，ＷＡＮＧＦｅｎＧｕｏｉｎ．ＱｕｉｃｋｒｅｄｕｃｔｉｏｎａｌｏｒｉｔｈｍｂａｓｅｄｏｎＨＵ　　　　　　ｇｙｇ

）加速比２

加速比是数据规模固定，不断增加节点数时并行算法的性能。理想的加速比是线性的，但由于计算机间通信、任务调度等开销，实际的加速比将低于理想情况。测试数据集大小为２节点数分别０ＧＢ，—７０—

·研制与开发·　曲朝阳，等　基于云计算技术的电力大数据预处理属性约简方法

，２ａｔｔｒｉｂｕｔｅｏｒｄｅｒ［Ｊ］．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＣｏｍｕｔｅｒｓ００７，　　　　ｐ（）：３０８１４２９１４３５．－

［］陈昊，杨俊安，庄镇泉．变精度粗糙集的属性核和最小属性约简４

］（）：算法［计算机学报，Ｊ．２０１２，３５５１０１１１０１６．－

，’ＣＨＥＮ　ＨａｏＹＡＮＧＪｕｎａｎ，ＺＨＵＡＮＧＺｈｅｎｕａｎ．Ｔｈｅｃｏｒｅｏｆ　　　　ｑａｎｄｍｉｎｉｍａｌａｔｔｒｉｂｕｔｅｓｒｅｄｕｃｔｉｏｎｉｎｖａｒｉａｂｌｅａｔｔｒｉｂｕｔｅｓｒｅｃｉｓｉｏｎ　　　　　　　ｐ］，２：ｒｏｕｈｓｅｔ［Ｊ．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＣｏｍｕｔｅｒｓ０１２，３５（５）　　　　ｇｐ１０１１１０１６．－

［］王熙照，］王婷婷，翟俊海．基于样例选择的属性约简算法［计５Ｊ．

（）：算机研究与发展，２０１２，４９１１２３０５２３１０．－

，ＷＡＮＧ，ＷＡＮＧＸｉｚｈａｏＴｉｎｔｉｎＺＨＡＩＪｕｎｈａｉ．Ａｎａｔｔｒｉｂｕｔｅ　　　　ｇｇ］ａｌｏｒｉｔｈｍｂａｓｅｄｏｎｉｎｓｔａｎｃｅｓｅｌｅｃｔｉｏｎ［Ｊ．Ｊｏｕｒｎａｌｏｆｒｅｄｕｃｔｉｏｎ　　　　　　ｇ，２：Ｃｏｍｕｔｅｒｅｓｅａｒｃｈｎｄｅｖｅｌｏｍｅｎｔ０１２，４９（１１）　Ｒ　ａ　Ｄｐｐ２３０５２３１０．－