遥感图像目标检测数据集去哪找：DOTA、DIOR、FAIR1M

先说个大实话：你要的这些数据，市面上有的是，但别指望一个地方全都给你打包好。 这些数据集，就像是不同厂家出的“标准考卷”，学术圈里公开的不少，但就是太散了。

你可能会遇到的情况是：同一份数据，武大官网挂一份，GitHub上有人传一份，百度飞桨上又有别人搬了一份，甚至Hugging Face上还有社区整理的版本。每个地方的格式、能不能直接下、拿来做生意会不会被找麻烦，全都不一样。新手最容易犯的错：一是以为自己下了个完整版，结果是个缺斤少两的副本；二是图省事拿“学术专用”的数据去开公司，后患无穷。

所以这篇不只是告诉你“去哪儿找”，更想帮你搞明白“哪个能真拿到手、哪个有坑要绕开”。

去哪找？直接上这些靠谱的地方

下面这些是我自己用过或者验证过的，按常用程度排了个序。先记两个词儿，后面会老碰到：

水平框（HBB）：就是用个方方正正的框把目标圈起来。
斜框（OBB）：框可以跟着目标旋转，比如斜着停的飞机、船，用这个更准。

1. DOTA —— 斜框遥感检测的“高考题”

这是武汉大学CAPTAIN团队搞的，圈里人基本都知道。

官方主页：https://captain-whu.github.io/DOTA/index.html
配套工具：https://github.com/CAPTAIN-WHU/DOTA_devkit （里面有解析、切图的小工具，挺方便）
原始论文：https://arxiv.org/pdf/1711.10398 （想搞清楚它到底有多少类别、多少张图，看这个最准）

有啥内容？ 最新的v2.0版本，有超过170万个标好的目标，分了18类。图都是从Google Earth、中国的高分二号卫星这些地方来的，分辨率很高。

格式是：斜框（OBB）。

最重要的一点：这个数据集明确说了，只能用来做学术研究，不能商用！ 特别是里面那些从Google Earth截的图，还要受人家自己的条款限制。你要是想拿去做产品赚钱，这条路先别走。

2. DIOR —— 更大规模的“模拟考”

这是西北工业大学出的，特点是图多，而且大多是水平框，更接近我们平时理解的物体检测。

还是以官方为准：https://gcheng-nwpu.github.io/ （这个页面最权威，下载链接都从这里找）
它的论文也是篇综述：https://arxiv.org/abs/1909.00133 （想了解这个领域整体情况，这篇论文可以看看）
方便用的社区版：https://huggingface.co/datasets/HichTala/dior （Hugging Face上有人转成了COCO格式，用起来快，但得留个心眼，它不是官方原版）
IEEE上的版本：https://ieee-dataport.org/documents/dior （这个可能要注册IEEE账号才能下）

有啥内容？ 2万多张800×800的大图，分了20类，图像也是从Google Earth来的。

格式是：水平框（HBB）。它也有个斜框版，叫DIOR-R。

注意：跟DOTA一样，Google Earth的图商用有风险。Hugging Face上的版本方便是方便，但下下来最好拿官方原版比对一下，怕有误差。

3. FAIR1M —— 细节拉满的“奥数题”

这是中科院空天院搞的，特点是分类特别细，同一个东西，它能分出十几种型号。

官方评测入口：https://www.gaofen-challenge.com/benchmark （想拿到完整数据，得走这个平台注册申请）
国内能直接试水的地方：https://aistudio.baidu.com/aistudio/datasetdetail/78453 （百度飞桨上有副本，可以先玩玩）
注意！这个是子集：https://huggingface.co/datasets/blanchon/FAIR1M （Hugging Face上这个版本，只放了训练集的一小部分，具体数量以该页面说明为准，千万别以为是全集就下了）

有啥内容？ 超过4万张图、100万个斜框实例，分了5大类37个子类，分辨率很高，大部分来自中国的高分卫星。

格式是：斜框（OBB）。

坑最深的地方：它的完整测试集是不公开的。你要是想用它的数据做测试，得老老实实去官网的挑战赛平台提交结果。网上那些所谓的“完整版”，基本都是只公开了一部分。

4. 其他几个轻量级选手

NWPU VHR-10：西工大的，只有800张图，10类，水平框。非常适合新手入门或者快速验证想法。GitHub上有：https://github.com/Gaoshuaikun/NWPU-VHR-10
xView、HRSC2016、RSOD：这几个也很有名，但本篇我就不给具体链接了，免得我给的链接失效了误导你。你可以搜索这几个名字，去它们的官方页面看。

5. 实在找不到的终极入口

GitHub上的数据集汇总：https://github.com/coderonion/awesome-object-detection-datasets （这哥们在GitHub上收集了一堆目标检测数据集，做得很全，可以作为你的“大数据超市”来逛）

可得性几档：哪些能直接拿，哪些要排队？

我把上面这些地方按“能不能真弄到手”分了三档，省得你白费功夫：

能直接下（多为学术用途）：DOTA、DIOR、NWPU VHR-10，官方源基本都让你下。但有些网站是放在GitHub Pages或者Google Drive上的，国内访问可能不太稳，得看你的网络情况。
要注册/申请的：FAIR1M的完整数据，特别是测试集，不是直接给的，得去“高分挑战赛”平台注册。IEEE上的DIOR也可能要IEEE账号。
拿不全/是副本的：Hugging Face、飞桨、天池这些平台上的，大多是用户自己搬运、转换的版本。它们的完整性、格式对不对，一定要跟你手里的官方信息核对清楚。

用之前，这几个版权坑千万别踩

“学术非商用”是条红线。DOTA、DIOR这类，明确说了只能搞研究。你拿去做商业项目，就是给自己埋雷。尤其是里面用了Google Earth的图，商用条款更复杂。
格式要对上号。DOTA、FAIR1M是斜框（OBB）；DIOR、NWPU VHR-10是水平框（HBB）。网上有很多转好的YOLO格式，方便是方便，但最好还是下原版校验一下，免得模型训练出来，结果发现是标注有问题。
别把“部分”当“全集”。特别是FAIR1M，下之前一定看清楚文件大小和说明，别辛辛苦苦跑个模型，最后发现数据不完整。
用过的数据，来源要留底。论文里用了哪个数据集、什么版本、什么许可，最好记下来，省得以后说不清楚。

如果觉得太散，想省点事儿

说到底，搞这些数据最让人头疼的，不是“有没有”，而是“东一个、西一个，每个的规矩还不一样”。新手很容易就掉进“副本不全”或者“误用侵权”的坑里。

如果你觉得这一圈跑下来实在太零碎，又想省点试错的时间和精力，可以让我们帮你做一次深度数据可得性检索。就是把同一个数据集的官方源、国内镜像、常用转换版本一次性给你理清楚，然后给你一句最诚实的判断：哪个直接下、哪个要申请、哪个测试集根本不公开、哪个严禁商用。 我们能做到哪一步、做不到啥，都跟你说得明明白白，不忽悠你。要不要试试，你来决定。

说明：本文为公开资料整理，仅供参考；平台政策、价格、下载方式与链接随时可能变化，本文不保证持续更新，请以各官方页面最新信息为准。

遥感图像目标检测数据集去哪找：DOTA、DIOR、FAIR1M

去哪找？直接上这些靠谱的地方

1. DOTA —— 斜框遥感检测的“高考题”

2. DIOR —— 更大规模的“模拟考”

3. FAIR1M —— 细节拉满的“奥数题”

4. 其他几个轻量级选手

5. 实在找不到的终极入口

可得性几档：哪些能直接拿，哪些要排队？

用之前，这几个版权坑千万别踩

如果觉得太散，想省点事儿

参考来源

同领域 · 计算机视觉

目标检测数据集免费下载：COCO、Open Images、DOTA来源

遥感图像分类数据集下载：RESISC45、AID、EuroSAT 公开来源

想知道这些数据到底能不能拿、能不能用？