综合癌症影像:TCIA
The Cancer Imaging Archive (TCIA) 是癌症影像领域最权威的公共档案,由专门服务负责对医学影像做去标识化后托管。它覆盖 CT、MRI、数字病理等多种模态,数据以 DICOM 为主,按肿瘤类型组织成大量独立数据集。多数集合可公开直接下载,但每个数据集各自带有使用许可与引用要求,部分受限集合需要单独申请。具体规模以官方页面为准。如果你做肿瘤分割、检测或多模态研究,这里通常是首选。
胸部 X 光:NIH ChestX-ray14、CheXpert、MIMIC-CXR
胸片是入门和基准测试用得最多的模态。
- NIH ChestX-ray14 由美国 NIH 临床中心提供,含约 112,120 张正位胸片、覆盖 14 种胸部病理的弱标签,官方明确对图像使用无限制,可在其 Box 页面免费直接下载(也有第三方在 Kaggle 上做了镜像,需免费账号)。标签由文本挖掘自动生成,质量为弱监督级别,使用时要心里有数。
- Stanford CheXpert 含约 224,316 张胸片,标注更细,现通过斯坦福 AIMI 平台分发,需注册并同意使用条款。
- MIMIC-CXR 托管在 PhysioNet,提供 DICOM 格式胸片及配套自由文本报告,适合影像-文本联合任务;它属于 PhysioNet 的「认证访问」层级,需完成培训、注册并签署数据使用协议后方可获取。
神经影像:OpenNeuro
OpenNeuro 由斯坦福可复现神经科学中心运营,是免费开放的神经影像共享平台,数据统一采用 BIDS 标准组织,覆盖 MRI、fMRI、EEG、MEG、PET 等。绝大多数数据集可直接公开下载,少数有访问限制。做脑科学、功能影像或多被试研究时优先看这里,BIDS 标准也省去大量整理工作。
加速 MRI 原始数据:fastMRI
fastMRI 由纽约大学 Langone 提供,特点是包含原始 k 空间数据,覆盖膝关节、脑、前列腺、乳腺等部位的全采样扫描,专为 MRI 重建加速研究设计。它需要在线提交申请、接受数据共享协议,且限定用于内部科研或教学用途,不能随意商用。规模以官方页面为准。
数字病理:CAMELYON17
CAMELYON17 是计算病理领域的代表性挑战赛,提供来自多家医疗中心的淋巴结全切片图像(WSI),任务是乳腺癌转移的检测与患者级分类。官方说明完整数据集为开放获取,下载链接在其 Data 区。WSI 文件体积普遍很大,下载与存储前要预留空间。
多器官分割与更多挑战赛:Grand Challenge、Synapse
- Grand Challenge 是面向生物医学影像的端到端平台,聚合了数百个挑战赛、算法仓库与影像数据归档,许多任务自带公开数据。是按具体任务找数据集的好入口,访问按各项目设置,部分需注册。
- Synapse 托管了「Multi-Atlas Labeling Beyond the Cranial Vault」等腹部多器官 CT 分割数据集,需注册账号后获取,并遵守各数据集的使用条款。
选择建议与常见坑
按任务挑来源:做癌症相关任务先看 TCIA;胸片分类做基准用 NIH ChestX-ray14,要细标注用 CheXpert,要图文联合用 MIMIC-CXR;神经影像走 OpenNeuro;MRI 重建走 fastMRI;病理走 CAMELYON17;多器官分割看 Grand Challenge 与 Synapse。
几个反复踩的坑:一是伦理与授权,凡是「需注册/需签数据使用协议/需机构权限」的来源(PhysioNet、CheXpert、fastMRI 等),都要先把流程走完再算数,审批可能耗时;二是商用限制,许多医学数据仅限科研或教学,正式产品化前务必逐条核对许可与引用要求;三是标注质量,弱标签(如自动文本挖掘)与专家细标注差别很大,别把基准数据当临床金标准;四是格式,放射影像多为 DICOM、神经与分割任务常用 NIfTI,下载前确认你的工具链能直接读取,避免反复转码。
如果你不确定某个公开数据集到底在哪、是否还能下载、条款是否符合用途,数聚天成的检索服务可以帮你跨多个公开来源定位与核对——我们只做诚实的检索定位,不夸大覆盖、不承诺独家,链接与条款以各来源官方页面为准。
参考来源
- https://www.cancerimagingarchive.net/
- https://nihcc.app.box.com/v/ChestXray-NIHCC
- https://www.kaggle.com/datasets/nih-chest-xrays/data
- https://stanfordmlgroup.github.io/competitions/chexpert/
- https://physionet.org/
- https://openneuro.org/
- https://fastmri.med.nyu.edu/
- https://camelyon17.grand-challenge.org/
- https://grand-challenge.org/
- https://www.synapse.org/Synapse:syn3193805/wiki/89480
