内蒙古工业大学的研究人员提出风电机组异常数据的在线清洗方法 - 电气技术杂志社

头条内蒙古工业大学的研究人员提出风电机组异常数据的在线清洗方法
2021-11-21 作者：马然栗文义齐咏生 | 来源：《电工技术学报》 | 点击率：
分享到：
导语风电机组数据采集与监视控制系统运行数据中含有大量异常数据，对风电机组健康状态预测影响严重。为此，针对风电机组健康状态预测中对异常数据进行在线清洗的实际需求，内蒙古工业大学的研究人员马然、栗文义、齐咏生，在2021年第10期《电工技术学报》上撰文，提出一种异常数据在线清洗方法。分析表明该方法能准确并实时地识别各类异常数据，有效提升风电机组健康状态预测的性能。
准确可信的数据采集与监视控制系统（Super- visory Control And Data Acquisition, SCADA）运行数据是风电机组发电性能预测、故障预测与健康管理等工作的基础。然而，由于机组运行环境恶劣，很多现场采集的数据质量较差，特别是因弃风限电、工况波动等原因导致的数据异常问题尤为突出。高比例异常数据对运行数据的真实规律、特征参量的相关性关系等信息的挖掘与应用影响极大，因此风电机组数据清洗工作至关重要。

风电机组数据清洗方法主要从特征空间的距离、概率和密度等角度界定异常值。但是目前的研究多以风功率数据为清洗对象，主要研究机组发电性能预测，而数据清洗方法在机组健康状态预测中的应用研究目前仍较少。

在风电机组整机性能预测与健康状态评估的应用中，有关研究指出，模型分析法如神经网络更适合于异常检测，而高斯混合模型、主成分分析及其改进算法等概率统计方法对机组性能退化的预测适应性更好。

然而，概率统计方法对数据质量要求较高，数据清洗的应用方向不同时，清洗对象、需要清洗的异常数据以及清洗方法均会有所差别，因此有必要对风电机组健康状态预测中的异常数据清洗工作进行针对性研究。

首先，选择运行数据中可反映机组性能退化的关键特征参量构成清洗对象，如风速-功率、转速-功率数据，而轴温、油温等参量作为机组健康状态预测与故障检测的重要特征依据，剔除其中的异常点反而可能造成故障信息丢失，不能轻易清洗。其次，确定待清洗的异常数据，包括堆积点与离群点。

离群点可能反映了工况变化，在基于模型分析法预测发电性能或故障时可以不清洗，但离群点分散性较大，对其进行合理清洗将有利于基于概率统计方法预测机组的健康状态。

此外，不同机组的运行数据存在采样周期不同、概率分布特征呈差异化等特点，随着机组性能的逐渐退化，数据分布特征更趋复杂，这些都对数据清洗方法的通用性、精度、运算效率、稳定性以及工程适用性提出了较高要求。因此，有必要针对风电机组健康状态预测深入研究运行数据关键特征参量的选择，以及堆积点和离群点的在线清洗方法。

目前，可用于解决运行数据特征参量选择的方法有Relief、互信息、随机森林与邻域粗糙集等。其中，Relief和互信息基于相关性度量，属于过滤法，具有快速高效、独立于预测模型的优点，但Relief为有监督法，而SCADA数据往往没有分类标签；随机森林属于封装法，可与邻域粗糙集应用于负荷预测或故障识别中对特征集的寻优与约简。

因此，基于互信息选择与机组运行状态相关性强的关键特征参量有利于简单、快速地确定清洗对象，并利用Copula函数无需假设数据的分布形态即可描述其实际分布规律的特点，解决互信息计算中联合概率密度函数估计难的问题。

为保证数据清洗方法的识别精度与运算效率，联合考虑关键特征参量的概率分布、时序特征与密度分布：利用单一Copula建立风速-功率、转速-功率等多元特征参量的置信等效功率区间，解决传统概率统计方法在样本分布不均、异常值较多时识别精度低的问题，同时避免采用混合Copula，确保算法的运算效率；仅考虑置信边界外的可疑数据，结合其时序特征和密度分布依次清洗堆积点与离群点，解决DBSCAN算法无法在线清洗[10-11]的问题；进一步基于Copula模拟实际异常数据，解决数据清洗模型定量分析的问题。

基于上述研究背景，内蒙古工业大学的研究人员针对风电机组健康状态预测中异常数据的在线清洗进行研究。分析风电机组性能退化过程中的数据特征，在此基础上，提出基于经验Copula-互信息（Empirical Copula-based Mutual Information, ECMI）法选择关键特征参量，并基于Copula结合异常值的时序特征与密度分布建立数据清洗模型（Copula-based data cleaning model combining Time-series Features and Density Distribution, Copula-TFDD），对堆积点和离群点等典型异常数据进行在线识别。

图1 Copula-TFDD数据清洗模型流程

科研人员通过研究得出如下结论：

1）提出基于ECMI的特征参量选择方法。选择反映风电机组整机性能的关键特征参量构成清洗对象，对实测风速-功率、转速-功率数据中的堆积点和离群点等典型异常数据进行清洗。

2）基于风电机组实测运行数据的概率分布、时序特征与密度分布提出Copula-TFDD数据清洗模型。该方法可以对具有不同采样周期和差异化概率分布的运行数据实现在线清洗，且能有效提升机组健康状态预测的性能。

3）基于Copula给出了人工模拟符合实际异常数据分布特征的数据集的方法。通过对Copula- TFDD的精度、运算效率和稳定性的定量分析，验证了该数据清洗方法的工程应用性较强。

本文编自2021年第10期《电工技术学报》，论文标题为“风电机组健康状态预测中异常数据在线清洗”，作者为马然、栗文义、齐咏生。

快捷入口

作者登录区

审稿登录区

合作单位

友情链接