医疗NLP数据集去哪找下载：CBLUE、CMeEE 等中文医疗语料来源

别急，这事儿其实有章可循，今天我就给你把路子捋清楚，让你少走弯路，直接找到对自己有用的东西。

先分清楚你到底是“要学说话”还是“要看报表”

这是新手最容易翻车的地方，没有之一。

你想要的“医疗数据”其实分两种，天差地别：

训练文本语料：这是给模型“喂”的，让它学会识别“咳嗽”、“肺炎”、“阿莫西林”这些词之间的关系，能看懂医患对话、抽取病历信息。你要找的是类似“患者咳嗽三天，咳黄痰”这样的句子集合。
卫生统计数据：这是给人看的报表，比如“2023年全国肺炎发病率为X%”、“某三甲医院月门诊量Y人次”。这些数字是统计结果，拿来画图表做分析行，但你拿它训模型，模型学不会“什么是咳嗽”。

记住一条死理：千万别拿年鉴去训NER（命名实体识别），学不出来，浪费时间。

找中文医学文本，这几个地方是“真·重点”

如果你的目标是做中文医疗NLP，下面几个入口是绕不开的硬通货，比你自己瞎搜强百倍。

1. CBLUE（天池平台）—— 中文医疗NLP的“高考题库”

链接：https://tianchi.aliyun.com/dataset/95414

这是阿里云天池上由中文信息学会搞的基准评测，基本算事实上的行业标准。涵盖了实体识别、关系抽取、文本分类、医学问答等8个子任务。你如果不知道从哪下手，就从这开始。要在天池注册个账号才能下，很简单，没门槛。

2. CMeEE（天池平台）—— 入门级NER“教科书”

链接：https://tianchi.aliyun.com/dataset/144495

如果你想先让模型学会“认出”疾病、药物、身体部位这些实体，这个数据集很合适。把疾病、临床表现、药物等9类标得清清楚楚。同样在天池下载。

3. 医患对话（Hugging Face上现成的）

链接：https://huggingface.co/datasets/UCSD26/medical_dialog

想做问答模型或者对话系统？这个数据集是纯中文的医患对话，直接就能用，不用签协议，对新手极其友好。用datasets库就能加载进代码。

别自己瞎找，先看这些“总目录”

医疗NLP的源头太散了，有人把家底都给你列好了。打开下面这几个GitHub仓库，相当于拿到了一份“藏宝图”。

GanjinZero/awesome_Chinese_medical_NLP：https://github.com/GanjinZero/awesome_Chinese_medical_NLP
FreedomIntelligence/Medical_NLP：https://github.com/FreedomIntelligence/Medical_NLP

重要提醒：这俩是“地图”，不是“金矿”。 里面列了很多链接，但有些是需要申请的，有些可能已经失效了。你得顺着地图一个个去点开核实，别幻想点一个就能全部下载。

如果只能找到英文，或者中文的拿不到怎么办？

国内很多真实病历数据都管得很严，要资质审核、签协议，不是你随便就能下的。如果暂时搞不定，可以用下面这些没有门槛的英文数据先练练手：

MeDAL（医学缩写消歧数据集）：https://github.com/McGill-NLP/medal

英文，但体量大，免费下，适合先做预训练，让你的模型先熟悉“医学语言的感觉”。

MultiCaRe（多模态病例报告）：介绍页在 https://pmc.ncbi.nlm.nih.gov/articles/PMC10792687/，数据托管在Zenodo。由7万多篇开放获取的病例报告提炼出来的，有近10万个病例，免费。

最后，说个不是办法的办法

说实话，医疗NLP数据最大的麻烦不是“有没有”，而是“能不能拿到”。有的点开就下，有的要注册，有的得签保密协议，有的只对医院开放。你一个人挨个去试，光是搞清楚每个数据的准入门槛，就够折腾一周。

假如你不想把精力耗在这种零碎的试错上，想直接知道“哪个数据我能用、哪个我肯定拿不到”，可以留意一下数聚天成DeepSData。他们能帮你做“数据可得性深度检索”——意思就是，你把需求告诉他，他替你去那些散落各处的源头（天池、GitHub、PhysioNet、卫健委等等）里捞一遍，然后诚实地告诉你：哪个能直接下，哪个需要去考个证、签个协议才能拿，哪个根本就是画饼。省掉你一个个去踩坑的时间。至于要不要用，你自己决定——但至少知道有这么一个搜法在。

本文仅作公开来源整理和可得性参考，不构成医疗、法律、投资、商业决策或合规意见；正式使用前请以官方页面、授权条款和专业意见为准。

说明：本文为公开资料整理，仅供参考；平台政策、价格、下载方式与链接随时可能变化，本文不保证持续更新，请以各官方页面最新信息为准。

医疗NLP数据集去哪找下载：CBLUE、CMeEE 等中文医疗语料来源

先分清楚你到底是“要学说话”还是“要看报表”

找中文医学文本，这几个地方是“真·重点”

别自己瞎找，先看这些“总目录”

如果只能找到英文，或者中文的拿不到怎么办？

最后，说个不是办法的办法

参考来源

同领域 · 医学健康

MIMIC数据库怎么申请下载：PhysioNet 三步流程与免费 Demo 版

糖尿病视网膜病变眼底数据集下载：DDR、IDRiD、APTOS公开来源

想知道这些数据到底能不能拿、能不能用？