先说个大实话:你要的这些数据,市面上有的是,但别指望一个地方全都给你打包好。 这些数据集,就像是不同厂家出的“标准考卷”,学术圈里公开的不少,但就是太散了

你可能会遇到的情况是:同一份数据,武大官网挂一份,GitHub上有人传一份,百度飞桨上又有别人搬了一份,甚至Hugging Face上还有社区整理的版本。每个地方的格式、能不能直接下、拿来做生意会不会被找麻烦,全都不一样。新手最容易犯的错:一是以为自己下了个完整版,结果是个缺斤少两的副本;二是图省事拿“学术专用”的数据去开公司,后患无穷。

所以这篇不只是告诉你“去哪儿找”,更想帮你搞明白“哪个能真拿到手、哪个有坑要绕开”。


去哪找?直接上这些靠谱的地方

下面这些是我自己用过或者验证过的,按常用程度排了个序。先记两个词儿,后面会老碰到:

  • 水平框(HBB):就是用个方方正正的框把目标圈起来。
  • 斜框(OBB):框可以跟着目标旋转,比如斜着停的飞机、船,用这个更准。
1. DOTA —— 斜框遥感检测的“高考题”

这是武汉大学CAPTAIN团队搞的,圈里人基本都知道。

有啥内容? 最新的v2.0版本,有超过170万个标好的目标,分了18类。图都是从Google Earth、中国的高分二号卫星这些地方来的,分辨率很高。

格式是:斜框(OBB)。

最重要的一点这个数据集明确说了,只能用来做学术研究,不能商用! 特别是里面那些从Google Earth截的图,还要受人家自己的条款限制。你要是想拿去做产品赚钱,这条路先别走。

2. DIOR —— 更大规模的“模拟考”

这是西北工业大学出的,特点是图多,而且大多是水平框,更接近我们平时理解的物体检测。

有啥内容? 2万多张800×800的大图,分了20类,图像也是从Google Earth来的。

格式是:水平框(HBB)。它也有个斜框版,叫DIOR-R。

注意:跟DOTA一样,Google Earth的图商用有风险。Hugging Face上的版本方便是方便,但下下来最好拿官方原版比对一下,怕有误差。

3. FAIR1M —— 细节拉满的“奥数题”

这是中科院空天院搞的,特点是分类特别细,同一个东西,它能分出十几种型号。

有啥内容? 超过4万张图、100万个斜框实例,分了5大类37个子类,分辨率很高,大部分来自中国的高分卫星。

格式是:斜框(OBB)。

坑最深的地方它的完整测试集是不公开的。你要是想用它的数据做测试,得老老实实去官网的挑战赛平台提交结果。网上那些所谓的“完整版”,基本都是只公开了一部分。

4. 其他几个轻量级选手
  • NWPU VHR-10:西工大的,只有800张图,10类,水平框。非常适合新手入门或者快速验证想法。GitHub上有:https://github.com/Gaoshuaikun/NWPU-VHR-10
  • xView、HRSC2016、RSOD:这几个也很有名,但本篇我就不给具体链接了,免得我给的链接失效了误导你。你可以搜索这几个名字,去它们的官方页面看。
5. 实在找不到的终极入口

可得性几档:哪些能直接拿,哪些要排队?

我把上面这些地方按“能不能真弄到手”分了三档,省得你白费功夫:

  • 能直接下(多为学术用途):DOTA、DIOR、NWPU VHR-10,官方源基本都让你下。但有些网站是放在GitHub Pages或者Google Drive上的,国内访问可能不太稳,得看你的网络情况。
  • 要注册/申请的:FAIR1M的完整数据,特别是测试集,不是直接给的,得去“高分挑战赛”平台注册。IEEE上的DIOR也可能要IEEE账号。
  • 拿不全/是副本的:Hugging Face、飞桨、天池这些平台上的,大多是用户自己搬运、转换的版本。它们的完整性、格式对不对,一定要跟你手里的官方信息核对清楚

用之前,这几个版权坑千万别踩

  1. “学术非商用”是条红线。DOTA、DIOR这类,明确说了只能搞研究。你拿去做商业项目,就是给自己埋雷。尤其是里面用了Google Earth的图,商用条款更复杂。
  2. 格式要对上号。DOTA、FAIR1M是斜框(OBB);DIOR、NWPU VHR-10是水平框(HBB)。网上有很多转好的YOLO格式,方便是方便,但最好还是下原版校验一下,免得模型训练出来,结果发现是标注有问题。
  3. 别把“部分”当“全集”。特别是FAIR1M,下之前一定看清楚文件大小和说明,别辛辛苦苦跑个模型,最后发现数据不完整。
  4. 用过的数据,来源要留底。论文里用了哪个数据集、什么版本、什么许可,最好记下来,省得以后说不清楚。

如果觉得太散,想省点事儿

说到底,搞这些数据最让人头疼的,不是“有没有”,而是“东一个、西一个,每个的规矩还不一样”。新手很容易就掉进“副本不全”或者“误用侵权”的坑里。

如果你觉得这一圈跑下来实在太零碎,又想省点试错的时间和精力,可以让我们帮你做一次深度数据可得性检索。就是把同一个数据集的官方源、国内镜像、常用转换版本一次性给你理清楚,然后给你一句最诚实的判断:哪个直接下、哪个要申请、哪个测试集根本不公开、哪个严禁商用。 我们能做到哪一步、做不到啥,都跟你说得明明白白,不忽悠你。要不要试试,你来决定。

说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。