我之前也卡在这,进来说说遥感图到底上哪搞
我之前为了搞农业地块识别,愣是翻了好几个晚上。今天就把我踩过的坑和真能用的路子,直接给你掰碎了说。
先别急,国内这几个入口先存一下(访问稳,下得快)
你如果平时碰到“无法访问”、“慢的一批”这种破事,优先走这几个,省心:
- OpenDataLab:https://opendatalab.com/
国内最大的开放数据平台之一,遥感和农业的数据集特别多,而且下载速度比你翻山越岭快多了。你搜“遥感”、“农作物”通常能翻到不少。它家有很多国外数据集的国内镜像,比如下面要说的EuroSAT,就走它下。
- 百度飞桨AI Studio:https://aistudio.baidu.com/datasetoverview
这个平台做了个数据集超市,可以直接一键导入到它的训练环境里,省得你自己折腾环境。有遥感影像,也有各种病虫害作物照片,国内访问没毛病。
- 阿里天池:https://tianchi.aliyun.com/dataset/
搞竞赛的平台,留了不少老数据。比如它以前搞过“县域农业大脑”挑战赛,那个赛题数据现在还能找到。链接:https://tianchi.aliyun.com/competition/entrance/231717/introduction
虽然是2019年的,但如果是做农业遥感入门的,可以当素材。
- 和鲸社区(Heywhale):https://www.heywhale.com/home/dataset
国内的数据科学社区,也有数据集库。搜“GID”或者“遥感农作物”大概率能找到,但具体有没有你得自己站内搜一下,以它收录的为准。
然后是几个“明星级”数据集,各有什么坑我直接说
这些是遥感圈公认的硬通货,你按你的任务来挑,别拿错。
1. EuroSAT(入门首选,地物分类,含农业类别)
这个是人手一份的入门集。基于哨兵2号卫星,27000张图,分了10类地物,里面包含了“年度作物”、“多年生作物”、“牧草地”这些农业相关的类。有RGB版也有13波段多光谱版。许可宽松(MIT协议),商用的门槛低。
- 官方仓库(含说明):https://github.com/phelber/EuroSAT
- 官方下载(Zenodo):https://zenodo.org/records/7711810
有俩压缩包,EuroSAT_RGB.zip和EuroSAT_MS.zip,直接下。
- 国内镜像(推荐):https://opendatalab.com/OpenDataLab/EuroSAT/download
如果你在国外那个Zenodo网站下不动,就走这个,快很多。
2. BigEarthNet(大体量,土地覆盖多标签,农业信息丰富)
这是做大模型的必备粮草。v2.0有大约54.9万对哨兵1/2卫星的影像块,标签用了欧洲的CORINE 2018土地覆盖库,一共19类,农业地类占得不少。许可宽松(CDLA-Permissive 1.0)。
- 官网:https://bigearth.net/
- TensorFlow Datasets:https://www.tensorflow.org/datasets/catalog/bigearthnet
如果你是搞TensorFlow的,可以直接从这加载,省得手动下载和整理,这个路数最稳。
3. Agriculture-Vision(纯农业,高分辨率,农田异常)
这个是我当初找最久的。它有约94986张512x512的航拍图,分辨率高达10厘米/像素(能看清地里有没有缺苗)。采自美国3432块农田,标注了9类农田异常(缺苗、积水、杂草、风灾这些)。它是CVPR挑战赛的官方集,含金量高。
- 官方仓库:https://github.com/SHI-Labs/Agriculture-Vision
- AWS开放数据:https://registry.opendata.aws/intelinair_agriculture_vision/
坑来了:它在AWS S3云盘上,页面直接点下载不一定顺手。最稳的方法是装个aws s3 cp命令行工具,然后输--no-sign-request就能免登录直接拉。网页下载容易断。
4. IBM-NASA多时相作物分类(做时序、做预测的)
如果你要做作物类型识别,或者根据时间序列看作物长势,这个很对口。它用的是Landsat和哨兵卫星融合的多时相影像,覆盖美国2022年,标签来自USDA(美国农业部)的作物数据图层。224x224大小,30米分辨率,18个波段。开放许可。
- Hugging Face:https://huggingface.co/datasets/ibm-nasa-geospatial/multi-temporal-crop-classification
5. CropNet(产量预测、多模态)
这个更适合做产量预测。它把哨兵2号影像、气象数据、USDA的作物数据整到了一起,覆盖美国2200多个县,从2017到2022年共6年数据。
- Hugging Face:https://huggingface.co/datasets/CropNet/CropNet
6. PlantVillage(病害补充,注意:不是卫星图,是叶片近照)
这个是个特例,它不是遥感图,而是近距拍的叶片病害照片。54306张,14种作物26种病害。如果你要做“天上看长势,地上诊病害”的整套方案,可以用它搭配上面那些遥感集用。
- 官方仓库:https://github.com/spmohanty/plantvillage-dataset
- Kaggle镜像:https://www.kaggle.com/datasets/emmarex/plantdisease
坑:Kaggle要登录才能下。
实在找不到了?这两个导航页帮你搜
- 遥感深度学习数据集大目录:https://github.com/satellite-image-deep-learning/datasets
一个社区维护的总目录,上面那些明星集基本都有收录。你按关键词搜“agriculture”、“crop”就行,当个导航页用。
- Radiant MLHub已停服,旧链接别点了
老实说,我以前收藏的Radiant MLHub已经倒闭了。它旗下的AgriFieldNet、CV4A Kenya Crop Type这些农田作物集,已经搬到了Source Cooperative。如果你搜到老链接点不开,就去看这个说明:https://github.com/torchgeo/torchgeo/issues/1830
最后说几个真坑,别踩
- “农业”标签别瞎信
EuroSAT、BigEarthNet里的农业类,指的是“土地覆盖分类里包含农作物”,不是那种专门针对某一种作物的数据集。真正纯作物/农田尺度的,是Agriculture-Vision、IBM-NASA、CropNet这些。选之前一定要想清楚:你要做地物分类,还是作物类型,还是农田异常检测?拿错了数据,模型训出来也是废的。
- 许可以官方页面为准
EuroSAT的MIT协议你随便用。但Kaggle上那些别人二次上传的,它真实的许可到底是啥,没人给你打包票。商用之前,必须回到原始发布页(就是上面我给的这些链接)去核对许可,别默认能用就冲。
- 数量别当精确数字
BigEarthNet有v1/v2版本,数量不一样。我说的大概是54.9万,但以你下载的那个具体版本为准,概数只是给你个感觉。
- 国内平台有没有你想要的,以站内搜出来的结果为准
比如和鲸社区是不是恰好有你要的GID,你需要自己去站内搜一下,别赖我。
如果觉得太零散,想省点时间
上面说了这么多,其实真麻烦的往往不是“有没有数据”,而是“散在十几个平台,术语和许可各不相同,国内到底能不能稳定拿到”。
如果你觉得整这些太费劲,想一次性搞清楚,我们可以帮你做一次深度数据可得性检索。说白了就是:把你具体要的任务告诉我,我帮你把国内入口(OpenDataLab、飞桨、天池、和鲸)和国际源(Hugging Face、Kaggle、AWS、Zenodo、Source Cooperative)全搜一遍,梳到一张表上。每个源我都会老实告诉你:免费直下?要注册?要命令行?国内有没有镜像?快不快?许可能不能商用?旧链接是不是已经失效了?
找不到对口的,我也会老实告诉你,并给你替代路径。而不是含糊保证“一定给你下到”。
我们叫 数聚天成 DeepSData,干的就是这个。你要是觉得找数据太散、太乱、拿不准到底稳不稳,我们可以帮你做一次针对性的检索,让你知道“这几个最稳,按这个顺序下,这些坑先避开”。
说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。
参考来源
- https://github.com/phelber/EuroSAT
- https://zenodo.org/records/7711810
- https://opendatalab.com/OpenDataLab/EuroSAT/download
- https://opendatalab.com/
- https://bigearth.net/
- https://www.tensorflow.org/datasets/catalog/bigearthnet
- https://github.com/SHI-Labs/Agriculture-Vision
- https://registry.opendata.aws/intelinair_agriculture_vision/
- https://huggingface.co/datasets/ibm-nasa-geospatial/multi-temporal-crop-classification
- https://huggingface.co/datasets/CropNet/CropNet
- https://tianchi.aliyun.com/dataset/
- https://aistudio.baidu.com/datasetoverview
- https://www.heywhale.com/home/dataset
- https://github.com/spmohanty/plantvillage-dataset
- https://www.kaggle.com/datasets/emmarex/plantdisease
- https://github.com/satellite-image-deep-learning/datasets
- https://github.com/torchgeo/torchgeo/issues/1830
