数据集深度说明(试点) · 风电运行

Kelmarsh 风电场 SCADA 数据怎么用:字段、背景与研究建议

这是英国 Kelmarsh 风电场 6 台风机的真实运行数据,每 10 分钟一条,公开免费。适合做风电功率曲线、故障预警、运行数据分析的学生和研究者。下面讲清它从哪来、有哪些字段、能做什么、容易踩什么坑。

一句话先说清

Kelmarsh 数据集是英国 Kelmarsh 风电场把 6 台风机的运行记录公开出来的一份开放数据,时间从 2016 年覆盖到 2021 年中,主体是每 10 分钟一条的 SCADA 数据(风机自带监控系统记录的运行参数)和事件数据(风机的启停、报警、状态变化)。它由 Cubico Sustainable Investments 公司发布,按 CC BY 4.0 许可开放,注明来源即可使用,包括商用。对想练手风电运行分析、又苦于拿不到真实风机数据的人来说,这是少数公开、字段完整、还带配套静态信息的整场数据。

一、数据背景:谁采的、怎么采的、为什么会公开

Kelmarsh 风电场位于英国,装了 6 台 Senvion MM92 型风机。这些数据来自风机自带的 SCADA 系统——风机运行时,机舱里的传感器会持续测风速、功率、转速、温度等参数,SCADA 系统把它们汇总记录下来,这是风电场日常运营的标准做法。

按官方说明,这份公开数据是从一套二级 SCADA 系统(Greenbyte)里导出的 10 分钟级数据,按年份分文件,覆盖 2016 年到 2021 年中。发布方是风电场的所有者 Cubico Sustainable Investments Ltd,把它作为开放数据公开,目的之一是让研究界能用上真实风电场数据。真实运行数据在工业界通常涉及商业机密、很难拿到,所以一份字段完整、来源清楚的整场公开数据,对研究和教学都比较稀缺。

来源:Kelmarsh wind farm data,Zenodo 记录页 https://zenodo.org/records/5841834

二、数据结构与字段字典

这份数据不是一个单文件,而是一组文件,既有随时间变化的运行数据,也有描述风电场本身的静态信息。先看整体包含哪些部分:

组成部分内容形式
kmz 文件Kelmarsh 风电场的地理位置文件,可在地图类软件里打开查看kmz
静态数据风机坐标,以及风机详情:额定功率、风轮直径、轮毂高度等表格
十分钟 SCADA 与事件数据6 台 Senvion MM92 风机的 10 分钟级运行数据与事件数据,按年份分文件,2016 至 2021 年中CSV
信号映射表从主 SCADA 系统的信号名到 CSV 列名的对应关系表格
变电站 / PMU 计量数据场站变电站、PMU 计量数据(有则提供)表格
结算 / 并网计量数据场站结算、并网计量数据(有则提供)表格

来源:Zenodo 记录页描述 https://zenodo.org/records/5841834

具体到每条 10 分钟记录里有哪些列,官方做了一件很重要的事——提供了信号映射表,把原始 SCADA 信号名对应到 CSV 里的列名。SCADA 列通常包含时间戳、风速、有功功率、转子转速、机舱温度、风向、各类状态/报警信号等典型量;但不同风电场、不同 SCADA 系统的列名和单位并不统一,每一列的确切名称、单位与含义请以下载包内的信号映射表和文件表头为准,不要凭其他数据集的字段名套用。这正是这份数据自带映射表的价值所在。

典型字段类别含义说明
时间戳该条记录对应的 10 分钟时间窗用于对齐多台风机与事件数据
风速类机舱测得的风速等功率曲线的横轴,单位以表头为准
功率类有功功率等功率曲线的纵轴,单位以表头为准
转速 / 桨距 / 风向等转子转速、桨距角、风向等运行量具体提供哪些列以信号映射表为准
温度类机舱、齿轮箱、发电机等部位温度常用于故障与健康分析,列以表头为准
状态 / 事件风机运行状态、报警、启停等事件在事件数据文件中,时间对齐到 SCADA

字段确切名称与单位以官方下载包内的信号映射表与 CSV 表头为准;来源:https://zenodo.org/records/5841834

三、研究对象与能回答的典型问题

有了 6 台风机几年的 10 分钟级运行数据加事件数据,常见可以做的研究方向有:

  • 功率曲线建模:用风速对功率拟合每台风机的实际功率曲线,对比理论曲线,看不同风机、不同时段的偏差。
  • 风机性能对比与劣化:同一风电场 6 台风机横向比,找出长期表现偏低或逐年下滑的风机。
  • 故障 / 异常预警:把温度、转速等运行量与事件数据里的报警、停机对齐,研究异常出现前的特征,做早期预警。
  • 停机与可利用率分析:用事件数据统计各类停机的时长、原因分布,估算风机可利用率。
  • 数据质量与缺失处理方法:真实运行数据天然有缺失和异常,本身就是研究数据清洗、插补方法的好素材。

四、研究建议与容易踩的坑

  • 别拿别的数据集字段名硬套:SCADA 列名各场不同,先读信号映射表确认每列是什么、什么单位,再开始分析。
  • 停机和异常时段要先处理:做功率曲线前,要剔除或单独标注停机、限功率、报警时段的记录,否则功率曲线会被异常点带偏。事件数据就是用来识别这些时段的。
  • 缺失值别简单删了事:10 分钟数据缺失很常见,缺失模式本身可能和停机相关,直接整行删可能引入偏差,要结合事件判断怎么处理。
  • 训练测试集按时间切,别随机打乱:风电数据是时间序列,做预测类任务时如果随机划分训练测试集,会让未来信息泄漏到训练里,评估结果虚高。应按时间先后切分,用早期数据训练、后期数据测试。
  • 多台风机别混在一起当独立样本:同场风机受同一来流影响,记录之间不独立,建模和评估时要意识到这种相关性。
  • 境外平台访问:数据托管在 Zenodo(境外平台),国内直接访问可能不稳定,下载大文件时尤其要留意。

五、获取与许可

  • 下载入口:Zenodo 记录页 https://zenodo.org/records/5841834,DOI 为 10.5281/zenodo.5841834。
  • 许可:CC BY 4.0(知识共享署名 4.0)。可以使用、修改、商用,但要注明来源。关于 CC BY 等许可怎么读,见公开数据集能不能商用
  • 发布方:Cubico Sustainable Investments Ltd;联系人邮箱见 Zenodo 记录页。
  • 怎么引用:按 Zenodo 记录页给出的引用信息引用该数据集(标题 Kelmarsh wind farm data、作者、年份、版本与 DOI 10.5281/zenodo.5841834);具体引用格式以记录页为准。

来源:https://zenodo.org/records/5841834

六、配套数据集与我们能帮上什么

如果你研究的是风电场对比,同一发布方还公开了英国 Penmanshiel 风电场的同类 SCADA 数据,结构相近,可以和 Kelmarsh 放在一起做跨场分析。设备故障、机械退化方向,公开的 CWRU 轴承故障数据与 NASA C-MAPSS 涡扇发动机退化数据也是常用的同类数据集,可一并纳入对比。

如果你看不准这份数据是否贴合你的课题,或者要同时整合多个来源、统一字段口径,可以把研究目标和必须满足的条件交给我们。我们先做一次数据可得性评估(注册即送 3 点可先体验),在权威数据平台真实检索,按你列的必须项逐条判断命中与缺口。即使未找到完全贴合的数据集,检索方向、近似来源与逐条判定也会如实呈现供你参考。

看科研服务 →

延伸阅读

聊聊需求