先说个结论,这事儿其实没想象中那么难。遥感图像分类这领域,数据算是比较全的,而且大部分都是公开免费的。核心就是那么几个明星数据集,你只要知道去哪找,基本都能下载到。麻烦的地方在于,有些官网不稳定,或者在国内下载限速,得找对路子。
第一个必下的,也是目前最常用的,叫NWPU-RESISC45。
这玩意儿是西工大搞的,3万多张图,45个类别,基本覆盖了你能想到的所有地物类型。但是!它的原版官网跟个幽灵似的,三天两头打不开,别头铁去死磕。我教你几招稳的:
- 首选去Hugging Face(一个国外的AI模型和数据大仓库)搜
timm/resisc45,这个版本已经帮你把训练集、验证集、测试集都分好了,下下来就能用。链接我贴下面。不过HF国内访问有时候得看网络心情,可能要开个加速。 - 备选去百度飞桨AI Studio上搜
NWPU-RESISC45,搜到的镜像点进去就能下。 国内访问贼快,但得登个百度账号。链接也给你:https://aistudio.baidu.com/aistudio/datasetdetail/51873 - 还有个TensorFlow Datasets的官方目录,链接也放下面了,能用一行代码加载,但它原始文件放在OneDrive上,国内下载也是慢得抠脚,不太推荐作为首选。
第二个常用的,叫AID,是武大和华科搞的航拍数据集。
这个比上面那个小一些,1万张图,30类,但分辨率更高。它的官网我试过,国内一般能打开,下载也算稳定。官网链接:https://captain-whu.github.io/AID/
另外,上海AI实验室的OpenDataLab上也有它的镜像,国内下载体验更好:https://opendatalab.com/OpenDataLab/AID
第三个,做入门测试用的最多,叫UC Merced Land-Use。
只有2100张图,21类,是个入门级的小基准。几乎所有论文都会拿它当起点对比。但它的官方下载链接我这没存,你们直接去主流平台(比如Hugging Face、OpenDataLab)上搜它的名字“UC Merced”就能找到,别让我瞎猜链接。
第四个,想玩点高级的,比如多光谱分析的,必须搞EuroSAT。
它用的是欧空局的哨兵2号卫星数据,有2.7万张图,10个类别。厉害的地方在于它有俩版本:一个普通彩色图(RGB版),一个13波段的专业版。做土地覆盖分析,直接上这个。
- 官方仓库在GitHub上,项目名叫
phelber/EuroSAT,里面告诉你咋下。 - 最稳的去处是Zenodo(一个科研数据永久存档网站),搜
7711810,直接下载EuroSAT_RGB.zip或者EuroSAT_MS.zip,这个链接几乎不会失效。 - Hugging Face上也有它的RGB版镜像,搜
mikewang/EuroSAT,用代码加载很方便。
第五个,叫PatternNet,偏图像检索,但经常被人拿来当分类用。
38类,每类800张,总共3万多张。它的下载页在Google Sites上,国内能不能直接访问,你心里有数,不行就得想点办法。https://sites.google.com/view/zhouwx/dataset
它的论文在arXiv上,想看它具体有哪些类别的可以搜1706.03424。
最后,实在找不到对口的,我强烈推荐一个GitHub上的大汇总。
项目名叫satellite-image-deep-learning/datasets,是社区维护的,里面把遥感领域各种分类、分割的数据集都给列出来了,你顺着找,总能找到你想要的。不过得留个心眼,有些链接可能已经死了,需要你挨个点开确认。
说几个我踩过的坑,你们注意一下:
- 别把“公开免费下载”直接等同于“能商用”。 这些数据集大多对研究开放,但严格的商用许可不一定明确。你要拿去卖钱,务必回到原始发布页,一字一句看它的许可协议,别稀里糊涂踩了版权雷。
- 官方主页打不开?别慌,直接奔镜像去。 像RESISC45这种,官网挂了是常态,直接去Hugging Face、百度飞桨、OpenDataLab上搜同名数据集,十有八九有人传了镜像。
- 国内下载速度看命。 Hugging Face、Zenodo、Google Sites这些,国内下载可能很慢或者需要账号。优先选百度飞桨AI Studio、OpenDataLab这些国内平台,速度有保障。
说到这,你可能觉得够了。但我知道,真正烦人的不是找不到数据,而是链接散落一地,你得挨个判断哪个活着、哪个能下、哪个合规。就跟开盲盒似的。
如果你嫌这事儿太零碎、想省点时间,可以直接找我们数聚天成 DeepSData。我们做的叫数据可得性深度检索,说白了,就是把你这个需求告诉我,我把上面所有路子(官方主页、GitHub、Zenodo、Hugging Face、飞桨、OpenDataLab)都给你摸一遍,然后给你画个表:哪个最稳、哪个要登录、哪个国内能直连、许可协议怎么写的、能不能商用,全给你标清楚。如果有些数据确实找不到或者拿不准,我们也会老实告诉你,并给你指条替代的路。绝不编链接、不报虚数。一句话,帮你在这一堆散落的信息里,找到那个最稳、最省事儿的路径。
说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。
参考来源
- https://captain-whu.github.io/AID/
- https://huggingface.co/datasets/timm/resisc45
- https://huggingface.co/datasets/jonathan-roberts1/NWPU-RESISC45
- https://www.tensorflow.org/datasets/catalog/resisc45
- https://aistudio.baidu.com/aistudio/datasetdetail/51873
- https://github.com/phelber/EuroSAT
- https://zenodo.org/records/7711810
- https://huggingface.co/datasets/mikewang/EuroSAT
- https://sites.google.com/view/zhouwx/dataset
- https://arxiv.org/abs/1706.03424
- https://opendatalab.com/OpenDataLab/AID
- https://github.com/satellite-image-deep-learning/datasets
