先说个结论,这事儿其实没想象中那么难。遥感图像分类这领域,数据算是比较全的,而且大部分都是公开免费的。核心就是那么几个明星数据集,你只要知道去哪找,基本都能下载到。麻烦的地方在于,有些官网不稳定,或者在国内下载限速,得找对路子。

第一个必下的,也是目前最常用的,叫NWPU-RESISC45。

这玩意儿是西工大搞的,3万多张图,45个类别,基本覆盖了你能想到的所有地物类型。但是!它的原版官网跟个幽灵似的,三天两头打不开,别头铁去死磕。我教你几招稳的:

  • 首选去Hugging Face(一个国外的AI模型和数据大仓库)搜timm/resisc45,这个版本已经帮你把训练集、验证集、测试集都分好了,下下来就能用。链接我贴下面。不过HF国内访问有时候得看网络心情,可能要开个加速。
  • 备选去百度飞桨AI Studio上搜NWPU-RESISC45,搜到的镜像点进去就能下。 国内访问贼快,但得登个百度账号。链接也给你:https://aistudio.baidu.com/aistudio/datasetdetail/51873
  • 还有个TensorFlow Datasets的官方目录,链接也放下面了,能用一行代码加载,但它原始文件放在OneDrive上,国内下载也是慢得抠脚,不太推荐作为首选。

第二个常用的,叫AID,是武大和华科搞的航拍数据集。

这个比上面那个小一些,1万张图,30类,但分辨率更高。它的官网我试过,国内一般能打开,下载也算稳定。官网链接:https://captain-whu.github.io/AID/

另外,上海AI实验室的OpenDataLab上也有它的镜像,国内下载体验更好:https://opendatalab.com/OpenDataLab/AID

第三个,做入门测试用的最多,叫UC Merced Land-Use。

只有2100张图,21类,是个入门级的小基准。几乎所有论文都会拿它当起点对比。但它的官方下载链接我这没存,你们直接去主流平台(比如Hugging Face、OpenDataLab)上搜它的名字“UC Merced”就能找到,别让我瞎猜链接。

第四个,想玩点高级的,比如多光谱分析的,必须搞EuroSAT。

它用的是欧空局的哨兵2号卫星数据,有2.7万张图,10个类别。厉害的地方在于它有俩版本:一个普通彩色图(RGB版),一个13波段的专业版。做土地覆盖分析,直接上这个。

  • 官方仓库在GitHub上,项目名叫phelber/EuroSAT,里面告诉你咋下。
  • 最稳的去处是Zenodo(一个科研数据永久存档网站),搜7711810,直接下载EuroSAT_RGB.zip或者EuroSAT_MS.zip,这个链接几乎不会失效。
  • Hugging Face上也有它的RGB版镜像,搜mikewang/EuroSAT,用代码加载很方便。

第五个,叫PatternNet,偏图像检索,但经常被人拿来当分类用。

38类,每类800张,总共3万多张。它的下载页在Google Sites上,国内能不能直接访问,你心里有数,不行就得想点办法。https://sites.google.com/view/zhouwx/dataset

它的论文在arXiv上,想看它具体有哪些类别的可以搜1706.03424

最后,实在找不到对口的,我强烈推荐一个GitHub上的大汇总。

项目名叫satellite-image-deep-learning/datasets,是社区维护的,里面把遥感领域各种分类、分割的数据集都给列出来了,你顺着找,总能找到你想要的。不过得留个心眼,有些链接可能已经死了,需要你挨个点开确认。

说几个我踩过的坑,你们注意一下:

  1. 别把“公开免费下载”直接等同于“能商用”。 这些数据集大多对研究开放,但严格的商用许可不一定明确。你要拿去卖钱,务必回到原始发布页,一字一句看它的许可协议,别稀里糊涂踩了版权雷。
  2. 官方主页打不开?别慌,直接奔镜像去。 像RESISC45这种,官网挂了是常态,直接去Hugging Face、百度飞桨、OpenDataLab上搜同名数据集,十有八九有人传了镜像。
  3. 国内下载速度看命。 Hugging Face、Zenodo、Google Sites这些,国内下载可能很慢或者需要账号。优先选百度飞桨AI Studio、OpenDataLab这些国内平台,速度有保障。

说到这,你可能觉得够了。但我知道,真正烦人的不是找不到数据,而是链接散落一地,你得挨个判断哪个活着、哪个能下、哪个合规。就跟开盲盒似的。

如果你嫌这事儿太零碎、想省点时间,可以直接找我们数聚天成 DeepSData。我们做的叫数据可得性深度检索,说白了,就是把你这个需求告诉我,我把上面所有路子(官方主页、GitHub、Zenodo、Hugging Face、飞桨、OpenDataLab)都给你摸一遍,然后给你画个表:哪个最稳、哪个要登录、哪个国内能直连、许可协议怎么写的、能不能商用,全给你标清楚。如果有些数据确实找不到或者拿不准,我们也会老实告诉你,并给你指条替代的路。绝不编链接、不报虚数。一句话,帮你在这一堆散落的信息里,找到那个最稳、最省事儿的路径。

说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。