先说个大实话:你要的这些数据,市面上有的是,但别指望一个地方全都给你打包好。 这些数据集,就像是不同厂家出的“标准考卷”,学术圈里公开的不少,但就是太散了。
你可能会遇到的情况是:同一份数据,武大官网挂一份,GitHub上有人传一份,百度飞桨上又有别人搬了一份,甚至Hugging Face上还有社区整理的版本。每个地方的格式、能不能直接下、拿来做生意会不会被找麻烦,全都不一样。新手最容易犯的错:一是以为自己下了个完整版,结果是个缺斤少两的副本;二是图省事拿“学术专用”的数据去开公司,后患无穷。
所以这篇不只是告诉你“去哪儿找”,更想帮你搞明白“哪个能真拿到手、哪个有坑要绕开”。
去哪找?直接上这些靠谱的地方
下面这些是我自己用过或者验证过的,按常用程度排了个序。先记两个词儿,后面会老碰到:
- 水平框(HBB):就是用个方方正正的框把目标圈起来。
- 斜框(OBB):框可以跟着目标旋转,比如斜着停的飞机、船,用这个更准。
1. DOTA —— 斜框遥感检测的“高考题”
这是武汉大学CAPTAIN团队搞的,圈里人基本都知道。
- 官方主页:https://captain-whu.github.io/DOTA/index.html
- 配套工具:https://github.com/CAPTAIN-WHU/DOTA_devkit (里面有解析、切图的小工具,挺方便)
- 原始论文:https://arxiv.org/pdf/1711.10398 (想搞清楚它到底有多少类别、多少张图,看这个最准)
有啥内容? 最新的v2.0版本,有超过170万个标好的目标,分了18类。图都是从Google Earth、中国的高分二号卫星这些地方来的,分辨率很高。
格式是:斜框(OBB)。
最重要的一点:这个数据集明确说了,只能用来做学术研究,不能商用! 特别是里面那些从Google Earth截的图,还要受人家自己的条款限制。你要是想拿去做产品赚钱,这条路先别走。
2. DIOR —— 更大规模的“模拟考”
这是西北工业大学出的,特点是图多,而且大多是水平框,更接近我们平时理解的物体检测。
- 还是以官方为准:https://gcheng-nwpu.github.io/ (这个页面最权威,下载链接都从这里找)
- 它的论文也是篇综述:https://arxiv.org/abs/1909.00133 (想了解这个领域整体情况,这篇论文可以看看)
- 方便用的社区版:https://huggingface.co/datasets/HichTala/dior (Hugging Face上有人转成了COCO格式,用起来快,但得留个心眼,它不是官方原版)
- IEEE上的版本:https://ieee-dataport.org/documents/dior (这个可能要注册IEEE账号才能下)
有啥内容? 2万多张800×800的大图,分了20类,图像也是从Google Earth来的。
格式是:水平框(HBB)。它也有个斜框版,叫DIOR-R。
注意:跟DOTA一样,Google Earth的图商用有风险。Hugging Face上的版本方便是方便,但下下来最好拿官方原版比对一下,怕有误差。
3. FAIR1M —— 细节拉满的“奥数题”
这是中科院空天院搞的,特点是分类特别细,同一个东西,它能分出十几种型号。
- 官方评测入口:https://www.gaofen-challenge.com/benchmark (想拿到完整数据,得走这个平台注册申请)
- 国内能直接试水的地方:https://aistudio.baidu.com/aistudio/datasetdetail/78453 (百度飞桨上有副本,可以先玩玩)
- 注意!这个是子集:https://huggingface.co/datasets/blanchon/FAIR1M (Hugging Face上这个版本,只放了训练集的一小部分,具体数量以该页面说明为准,千万别以为是全集就下了)
有啥内容? 超过4万张图、100万个斜框实例,分了5大类37个子类,分辨率很高,大部分来自中国的高分卫星。
格式是:斜框(OBB)。
坑最深的地方:它的完整测试集是不公开的。你要是想用它的数据做测试,得老老实实去官网的挑战赛平台提交结果。网上那些所谓的“完整版”,基本都是只公开了一部分。
4. 其他几个轻量级选手
- NWPU VHR-10:西工大的,只有800张图,10类,水平框。非常适合新手入门或者快速验证想法。GitHub上有:https://github.com/Gaoshuaikun/NWPU-VHR-10
- xView、HRSC2016、RSOD:这几个也很有名,但本篇我就不给具体链接了,免得我给的链接失效了误导你。你可以搜索这几个名字,去它们的官方页面看。
5. 实在找不到的终极入口
- GitHub上的数据集汇总:https://github.com/coderonion/awesome-object-detection-datasets (这哥们在GitHub上收集了一堆目标检测数据集,做得很全,可以作为你的“大数据超市”来逛)
可得性几档:哪些能直接拿,哪些要排队?
我把上面这些地方按“能不能真弄到手”分了三档,省得你白费功夫:
- 能直接下(多为学术用途):DOTA、DIOR、NWPU VHR-10,官方源基本都让你下。但有些网站是放在GitHub Pages或者Google Drive上的,国内访问可能不太稳,得看你的网络情况。
- 要注册/申请的:FAIR1M的完整数据,特别是测试集,不是直接给的,得去“高分挑战赛”平台注册。IEEE上的DIOR也可能要IEEE账号。
- 拿不全/是副本的:Hugging Face、飞桨、天池这些平台上的,大多是用户自己搬运、转换的版本。它们的完整性、格式对不对,一定要跟你手里的官方信息核对清楚。
用之前,这几个版权坑千万别踩
- “学术非商用”是条红线。DOTA、DIOR这类,明确说了只能搞研究。你拿去做商业项目,就是给自己埋雷。尤其是里面用了Google Earth的图,商用条款更复杂。
- 格式要对上号。DOTA、FAIR1M是斜框(OBB);DIOR、NWPU VHR-10是水平框(HBB)。网上有很多转好的YOLO格式,方便是方便,但最好还是下原版校验一下,免得模型训练出来,结果发现是标注有问题。
- 别把“部分”当“全集”。特别是FAIR1M,下之前一定看清楚文件大小和说明,别辛辛苦苦跑个模型,最后发现数据不完整。
- 用过的数据,来源要留底。论文里用了哪个数据集、什么版本、什么许可,最好记下来,省得以后说不清楚。
如果觉得太散,想省点事儿
说到底,搞这些数据最让人头疼的,不是“有没有”,而是“东一个、西一个,每个的规矩还不一样”。新手很容易就掉进“副本不全”或者“误用侵权”的坑里。
如果你觉得这一圈跑下来实在太零碎,又想省点试错的时间和精力,可以让我们帮你做一次深度数据可得性检索。就是把同一个数据集的官方源、国内镜像、常用转换版本一次性给你理清楚,然后给你一句最诚实的判断:哪个直接下、哪个要申请、哪个测试集根本不公开、哪个严禁商用。 我们能做到哪一步、做不到啥,都跟你说得明明白白,不忽悠你。要不要试试,你来决定。
说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。
参考来源
- https://captain-whu.github.io/DOTA/index.html
- https://github.com/CAPTAIN-WHU/DOTA/blob/master/dataset.html
- https://gcheng-nwpu.github.io/
- https://huggingface.co/datasets/HichTala/dior
- https://ieee-dataport.org/documents/dior
- https://www.gaofen-challenge.com/benchmark
- https://aistudio.baidu.com/aistudio/datasetdetail/78453
- https://huggingface.co/datasets/blanchon/FAIR1M
- https://github.com/Gaoshuaikun/NWPU-VHR-10
- https://github.com/coderonion/awesome-object-detection-datasets
- https://arxiv.org/pdf/1711.10398
- https://arxiv.org/abs/1909.00133
