找齿轮/轴承故障数据,别再自己瞎翻几十个网页了(先听我几句劝)

说真的,齿轮箱和轴承的振动故障数据,在这行里算是公开数据里最"成熟"的一类了。网上资源确实不少,GitHub 上有、国外高校官网有、Kaggle 上也有,甚至国内像和鲸、天池、AI Studio 这些平台也能搜到。听起来是不是觉得“那还愁啥”?但我要跟你说的是,我这段时间折腾下来,有几个坑是真的踩过,有些弯路是真的走了。下面这几点提醒,是我觉得最该让你知道的。

第一句大实话:别以为“公开数据”就都是“齿轮数据”。 绝大多数权威数据集,其实是冲着“轴承”去的。如果你要做的是齿轮(就是那个带齿、会断齿、会裂纹的部件)的故障诊断,真正对口的、干净的数据集,其实就那么几个。要是拿那些顶级的轴承数据(比如凯斯西储那个经典集)去糊弄齿轮相关的工作,那路子就彻底偏了。所以,别光看着“公开”两个字就往下跳,先搞清楚手里这份到底是啥。

第二句大实话:去对地方,比瞎翻强一百倍。 我帮你把最对口的几个地方先圈出来,你先按这个顺序找,省心得多:

  • 最对口齿轮的几个“专题集”,优先看这几个:
  • 东南大学那个齿轮箱数据集(GitHub镜像):这是目前最对口的之一。它分了两部分——齿轮子集和轴承子集。齿轮子集里,断齿、缺齿、齿根裂纹、磨损、点蚀这5种常见故障都有,而且还是8通道的振动信号。GitHub上搜“cathysiyu/Mechanical-datasets”就能找到,国内访问挺顺畅。学术研究用免费。
  • 清华的MCC5-THU齿轮箱基准集:这个也是GitHub上直接能下的,搜“liuzy0708/MCC5-THU-Gearbox-Benchmark-Datasets”。它专门针对变工况,有不同严重程度和复合故障。免费,学术用没问题。
  • Kaggle上那套齿轮箱故障数据:搜“Gearbox Fault Diagnosis brjapon”。这套是用模拟器采集的,健康齿轮 vs 断齿,两类数据。格式是CSV,比较友好。但要注意,下载得免费注册个Kaggle账号,而且这个站是境外的,国内访问稳不稳要看实际情况。
  • 美国能源部开放数据(OEDI)和政府数据门户:如果你觉得Kaggle麻烦,这套数据在“data.openei.org/submissions/623”和“catalog.data.gov”上也有,而且不需要登录就能下,直接搜“Gearbox Fault Diagnosis Data”就能找到,这算是个好路子。
  • PHM Society 2009年的齿轮箱挑战赛数据:这是工业圈里的一个经典数据集。但说实话,我这次去查,它家官网(phmsociety.org)有时候会打不开。别慌,可以走NASA的DASHlink镜像(“c3.ndc.nasa.gov/dashlink/resources/997/”),这个镜像免费,下载路径也比较稳。
  • 如果齿轮和轴承你都要,那还得补上轴承这半边:
  • 凯斯西储大学(CWRU)的轴承数据:这个不用多说了,行业里的事实标准。官网在“engineering.case.edu/bearingdatacenter”。但它是国外的,国内访问可能会慢,或者偶尔抽风。打不开的话,去GitHub上搜同名数据,或者到和鲸、天池、AI Studio里搜中文名“CWRU轴承数据集”,基本都有镜像。
  • 德国帕德博恩大学的轴承数据:官网上“mb.uni-paderborn.de/kat/forschung/bearing-datacenter”能找到。它的数据很全,有32种状态。但你得特别注意一个坑:它的许可协议是CC BY-NC 4.0,只允许非商业的学术研究,而且必须引用原文。 如果你的目的是搞商业应用,这套数据就不能碰。

第三个提醒:先查清楚,再动手,能少走一半弯路。 千万不要一上来就到处下。GitHub上有个叫“hustcxl/Rotating-machine-fault-data-set”的汇总仓,里面把SEU、帕德博恩等好些个数据集的说明文档都整理成中文了。知乎上也有一个整理得很全的清单(搜“故障诊断开源数据集汇总”)。我建议你先去这些地方,把“每个集到底是什么、有啥坑”查个明白,心里有数了,再决定下哪个。 这个时间花得值。

第四个坑:许可问题,别想当然。

  • 默认“公开 = 可商用”,这是最大的雷。帕德博恩那个明确禁止商用;CWRU要求注明出处;SEU那类多数是学术研究引用论文。但凡你是做商业产品,用之前,必须回每个数据集的原始发布页,把它的license原文一字一句看清楚了。
  • GitHub上的多是第三方镜像,版本和完整性可能跟官方源有出入。想严谨点,还是尽量回原始出处核对。
  • 国内平台(和鲸、天池、AI Studio)上到底有没有恰好对口的数据集,这个我真的没法给你打包票。你得自己去它们网站搜“齿轮箱”、“故障诊断”这些关键词确认,没有就是没有,真碰上了算运气好。

最后,说句掏心窝子的话

你看,光找数据这一件事,就涉及七八个零散的地方:国内的镜像、国外高校的官网、协会的比赛网站、Kaggle、政府开放数据平台……最头疼的不是“有没有”,而是我得把它们全部捋一遍,弄清楚哪个是真正对口的“齿轮”数据,哪个只是“轴承”数据;还得搞清楚哪个在国内能打开、哪个需要注册、哪个商用会有麻烦。

你要是觉得这太零碎,想省点时间,我们可以帮你干这件事。说白了,就是帮你把“去哪找”这个麻烦事,收敛成一张清清楚楚的表:哪些是最对口的、哪个按什么顺序下、哪个有什么坑、打不开的怎么找替代。我们做的是数据可得性深度检索——在散落在各处的来源里,帮你把能找到的找出来,能走通的路指清楚,找不到的、没法用的,也会诚实地告诉你“这路不通”,而不是含含糊糊地保证你一定能拿到。想不想省这个事,你自己掂量。


核心参考链接与数据来源

链接整理于 2026-06,使用前请以官方页面实际状态为准。

说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。