免费的电机故障诊断数据集去哪下?别被“网上没数据”骗了,真正的问题是散
但说句实话,有两件事你得提前心里有数,别到时候怪我没提醒你:
第一,绝大多数公开数据是实验室台架上“造出来”的,不是工厂产线上真机器跑出来的。 故障是人用电火花打出来的,工况干干净净、没有震动干扰。你拿它训练出来的模型,想直接搬到车间那台轰隆隆转的老电机上?大概率翻车。不是不能用,是心里得清楚这个距离。
第二,国内能直接点开就下的现成集,少得可怜。 那些GitHub、和鲸、CSDN上能搜到的,多半是转载。真正权威、系统的源头,绝大部分在境外高校官网或国际平台。有些要注册,有些下载慢得像蜗牛。
简单说:能找到,而且能找到很好用的研究基准集。但你知道去哪找、哪个能真拿到手、哪个有坑——这活儿才刚开始。
去哪找?这几个是真实能拿到手的,我一个个说清楚
先给你分个类,方便你对号入座。电机故障数据大体分两拨:
- 振动信号:最常见,测轴承或转子抖得对不对,占了绝大多数数据集。
- 电机电流信号:测电机本体毛病,比如转子断条、匝间短路,这种相对少,但有些好货。
很多权威数据集两种信号是同步采的。下面按来源一个个列,都是调研里核实过的真实出处。
1. 凯斯西储大学 CWRU 轴承数据中心——入门第一站,人人绕不开
- 链接:https://engineering.case.edu/bearingdatacenter/download-data-file
- 有什么:这行公认的“基准集”,几乎所有人都拿它起步。用SKF6205深沟球轴承,电火花打故障——内圈、外圈、滚动体三处,每个地方分0.007、0.014、0.021英寸三档损伤,采样有12kHz和48kHz两种。
- 格式:MATLAB的.mat文件,懂点代码就能读。
- 注意:官网直接下,免费,完事了。但历史上有过域名换过(老的csegroups和现在的engineering都出现过),具体哪个入口能用,以官方页面当天为准——我这儿没法给个死链接保证永远有效。
2. 德国帕德博恩大学 KAt 轴承数据中心——质量高,但有个硬限制
- 链接:https://mb.uni-paderborn.de/kat/forschung/bearing-datacenter/data-sets-and-download
- 有什么:这是好东西。一共32种轴承状态——6种健康,26种损伤。关键是振动和电机电流同步采的,还附带转速、扭矩、径向力、温度这些,数据质量很高。
- 注意(这条很重要):许可是 CC BY-NC 4.0,翻译成人话就是——只能用于非商业的学术研究,而且必须标注出处。如果你是做商业项目、要卖产品的,这条就卡死了,别往里踩。得换源或者单独评估。
3. 西安交大 XJTU-SY 轴承全寿命数据集——做寿命预测,用它最合适
- 链接:https://github.com/WangBiaoXJTU/xjtu-sy-bearing-datasets
- 有什么:国内高校的权威源。15个轴承从好用到彻底坏掉的“全寿命”数据,特别适合做剩余寿命预测(就是预测机器还能撑多久)。
- 格式:CSV,水平加垂直两路振动信号,比MAT文件好读。
- 注意:下载走作者网站、MEGA、MediaFire、百度网盘几个渠道。你那边能不能打开、快不快,都不稳定——以仓库当前给出的链接为准,别死磕。
4. MFPT 机械故障预防技术协会 轴承数据集——国际常用基准
- 链接:https://mfpt.org/fault-data-sets/
- 有什么:国际上常用的基准集。含健康基线,还有多种载荷下的内圈、外圈故障,采样率高(大概97656 sps)。
- 格式:MATLAB .mat,官网公开,直接下。
5. IEEE DataPort 三相异步电机断条实验库——少见的不只是轴承
- 链接:https://ieee-dataport.org/open-access/experimental-database-detecting-and-diagnosing-rotor-broken-bar-three-phase-induction
- 有什么:这个值得我单独拎出来——它不是只测轴承,而是真正的电机本体故障——比如转子断条。1hp、220-380V、4极、60Hz、34根转子条,含无故障基线,不同载荷搭配不同断条严重程度,每个工况重复10次,电气和机械信号都有。
- 注意:标的是“开放获取”(open-access),但得登录账号才能下——免费注册就行,别嫌麻烦。
6. hustcxl 开源旋转机械故障数据集整理——国内用户最省事的总入口
- 链接:https://github.com/hustcxl/Rotating-machine-fault-data-set
- 有什么:如果你嫌一个个翻官网太累,这个中文索引是最省事的入口。它把CWRU、PU、SEU、XJTU-SY以及国内一些竞赛集(七月在线电机振动、DC轴承等)汇成中文清单,还附上原始下载指引。
- 注意:它就是个“目录索引”,具体每个数据集的许可,你得点进各自的原始页面自己看——别拿它当权威源。
7. 和鲸社区 Heywhale——国内能直接访问,但注意啥
- 链接:https://www.heywhale.com/home/dataset
- 有什么:国内可以直接打开的数据和竞赛社区。搜“电机”“轴承”“故障”,能找到一些竞赛搬运的数据集,还有能在线跑的Notebook。
- 注意:电机故障类的多是转载集,原始出处和许可得逐个核对——别拿来就当权威源用,否则引用的时候容易翻车。
8. Hugging Face 上的 CWRU 子集——方便代码直接加载,但别迷信
- 链接:https://huggingface.co/datasets/alidi/cwru-dataset
- 有什么:第三方整理的CWRU,存成parquet格式,方便用Python的datasets库直接加载,省去自己处理.mat文件的麻烦。
- 注意:这是个人整理的裁剪子集,行数很少,不等于CWRU官方全量。要做正经研究,还是得回CWRU官网核对原始数据。而且需要Hugging Face账号。
9. awesome-bearing-dataset 公开轴承数据集合集——备用扩检清单
- 链接:https://github.com/VictorBauler/awesome-bearing-dataset
- 有什么:英文版的轴承故障公开数据集汇总,可以当“跨源扩检”的备用清单,补上面没列全的(比如SEU齿轮箱、各高校的集)。
- 注意:同样是索引性质,得逐个源看各自许可。
可得性与坑:哪些白拿、哪些要申请、找不到怎么办
把上面的去重一下,按“能不能真拿到手”给你捋清楚:
官网直接免费下、最省心的:
- CWRU(.mat,免费直下,注意域名以官方当天为准)
- MFPT(.mat,官网公开)
免费,但要注册登录才能下:
- IEEE DataPort、Kaggle、Hugging Face、Mendeley这些平台都得先有账号。其中IEEE DataPort个别数据集还分“开放获取”和“订阅”两类,要逐条看条目上的标注——别以为登录了就一定免费。
免费,但许可上有硬限制(商用要当心):
- 帕德博恩PU是 CC BY-NC,只能非商业学术用。你要是商业项目,这条卡死,得换源或者单独评估。
能下,但渠道不稳、可能慢:
- XJTU-SY走MEGA/百度网盘等,境内外可达性和速度都不稳,以作者仓库当前链接为准。
要谨慎、别当权威源的:
- 搜索里那些CSDN、GitCode、52phm之类“免费下载电机故障数据集”的页面,多是别人转载,有的还要关注公众号回复关键词换链接,原始出处和许可常常说不清。可以参考,但别当权威来源引用。
关于“政府公开数据”——大概率没有:
- 很多人会想去国家统计局或各部委找“电机故障专项数据”。这类工业设备故障数据通常不在政府统计口径里,本轮调研也没检索到对口的官方政府源,大概率没有,需要时以官方页面为准。
实在找不到完全对口的怎么办?
比如你那台特定型号电机的真实工厂故障数据,网上没有现成集。这时候:
- 先用通用基准集(CWRU、PU等)把方法跑通、做验证,再用迁移学习往你的场景靠;
- 去IEEE DataPort、Mendeley按关键词再扩大范围检索;
- 或者考虑用合成数据集做补充,有些研究用仿真生成数据。
用之前注意:许可和版权这关别踩
数据能下,不代表你就能随便用。下载前先过一遍这几条,省得后面出事:
- 先看许可,再决定用途。 最典型的就是帕德博恩PU的CC BY-NC——非商业、学术用、必须署名。商用项目用了它,就是违规。 每个集的许可不一样,CWRU、MFPT相对宽松,但习惯是用之前回原始页面确认一遍。
- 转载站的数据,许可往往说不清。 CSDN、GitCode这类二手页面,常常连原始出处都标不全,许可更无从谈起。要引用、要发表、要商用,一律回到原始官方源核对,别拿二手链接当依据。
- 索引清单只是“指路牌”,许可看各源原页。 像hustcxl、awesome-bearing-dataset这种汇总,本身是目录,每个数据集的许可得点进它各自的原页去看。
最后说句实在的
电机故障诊断的数据其实不缺,缺的是“把散在十几个境内外平台、命名混乱、许可和能不能下都说不清的来源,理成一张你能照着走的清单”。这事你自己慢慢撞也能撞明白,就是费时间——而且万一撞到别人转载的二手货,还得回头重新查。
如果你觉得太零散,或者就想省点时间——比如你要找“振动信号+转子断条+可商用”的特定数据,我建议你找数聚天成 DeepSData做一次深度数据可得性检索。他们不是什么给你甩一堆链接就完事,而是按你的具体需求——“振动信号还是电流信号”“轴承故障还是转子断条”“做分类还是做寿命预测”——帮你对号入座,明确告诉你每个源到底能不能拿到手、是免费直下还是要注册、能不能商用,而不是让你自己挨个撞墙。要不要试试,你说了算。
说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。
参考来源
- https://engineering.case.edu/bearingdatacenter/download-data-file
- https://mb.uni-paderborn.de/kat/forschung/bearing-datacenter/data-sets-and-download
- https://github.com/WangBiaoXJTU/xjtu-sy-bearing-datasets
- https://mfpt.org/fault-data-sets/
- https://ieee-dataport.org/open-access/experimental-database-detecting-and-diagnosing-rotor-broken-bar-three-phase-induction
- https://github.com/hustcxl/Rotating-machine-fault-data-set
- https://www.heywhale.com/home/dataset
- https://huggingface.co/datasets/alidi/cwru-dataset
- https://github.com/VictorBauler/awesome-bearing-dataset
