中文医疗问答数据集下载与许可：华佗26M、cMedQA2

开源中文医疗问答数据集去哪找？普通用户能直接用的有哪些？

下面这份清单，把真实存在、能直接访问的中文医疗问答数据集按来源说清楚，同时告诉你每个到底免费不免费、能不能用在商业项目里。

入门首选：免登录、点开就能下载的

1. Toyhom/Chinese-medical-dialogue-data（中文医疗对话数据集）

来源：GitHub（点这里）
规模：大约79.2万条真实的医患问答，覆盖男科、内科、妇产科、肿瘤科、儿科、外科六大科室
格式：CSV，字段包括科室、标题、问题、答案
特点：开源，不用登录就能直接下载，是入门级最常用的真实问诊数据
⚠️ 注意：这份数据在仓库页上的许可说明不明显，想商用的话一定要先去仓库页确认清楚，拿不准就当成“只能研究用”。

另外，阿里云天池上有这份数据的镜像（天池 90163 号数据集），方便国内直接下载，但天池一般需要登录账号。

2. FreedomIntelligence/Huatuo-26M（华佗 26M）

来源：GitHub（点这里）和 Hugging Face
规模：号称目前最大的中文医疗问答数据集，约2600万条问答对，来自在线医学百科、知识库和问诊记录
许可：Apache-2.0，比较宽松
获取方式：数据按子集发布在 Hugging Face（分百科问答、知识图谱问答、问诊问答、精简版 Lite 四个子集），用 Python 的 datasets 库就能加载，没有明显的申请门槛（以官方页面为准）
官方论文：Huatuo-26M 论文（arXiv 2305.01526），数据规模数字以论文和仓库页为准

适合训练或微调的打包集

3. shibing624/medical（Hugging Face）

来源：Hugging Face 数据集页面
规模：约244万样本，打包成了三部分——预训练（百科+教材约37万）、微调（对话79万+百科36万+知识图谱79万+英文约11.6万）、偏好（约3800对）
格式：JSON
许可：整体标 Apache-2.0
⚠️ 两个提醒：一是它的数据预览或加载需要你“信任并执行它的脚本”；二是它是多来源拼起来的，整体许可盖不住每个子来源——子来源各自的限制对你仍然有效，商用要一个个回溯。

4. scutcyr/BianQue-1.0（扁鹊，Hugging Face）

来源：Hugging Face 页面
规模：超900万样本，是把 MedDialog-CN、IMCS-V2、cMedQA2、Chinese-medical-dialogue-data 等多个开源集合并成的“指令+多轮对话”集
特点：适合直接拿去做微调
同样的话：这是拼装集，每个子来源的原许可要逐一遵守

常用作评测基准的

5. zhangsheng93/cMedQA2（GitHub）

来源：GitHub 仓库
规模：10.8万个问题，约20.4万个答案，已经分好训练/验证/测试集，CSV 加候选 txt
许可：GPL-3.0，明确只限非商业研究，且使用要引用论文（Zhang et al. 2018, IEEE Access）
⚠️ 想商用的话这份基本用不了。同一作者还有一个上一代版本 cMedQA（v1），规模更小，许可同样是研究用途，可以拿来做对照。

6. webMedQA

从在线健康咨询网站采集的真实中文医疗问答，约6.3万个问题，常被当作医疗大模型的评测基准（具体以原始论文或仓库页面为准）

7. MedDialog（中文版）

医患对话约110万段、约400万轮次，规模很大。中文版常通过天池等镜像获取：天池 92110 号数据集。天池一般要登录才能下载，协议以页面为准。

国内平台（需要登录）

8. 中文医学问答数据集（百度飞桨 AI Studio）

来源：AI Studio 数据集页面
特点：国内平台上的中文医学问答数据集，一般要先登录星河社区，然后在线下载或在 Notebook 里挂载使用
规模、字段以页面为准

9. 和鲸社区数据集库（Heywhale）

来源：和鲸首页
特点：国内的数据科学社区，有医疗类数据集，下载或在线使用通常要登录账号，按各数据集页面的说明操作

不知道还有啥？翻这几个聚合目录

如果你觉得上面的还不够，或者想看看更多来源，这几个 GitHub 仓库是别人整理好的资源汇总，顺着链接就能找到更多 QA 来源和许可信息：

GanjinZero/awesome_Chinese_medical_NLP：中文医学 NLP 公开资源大全（语料、问答、词向量、知识图谱、论文）
openmedlab/Awesome-Medical-Dataset：医疗数据集汇总目录，含 cMedQA 等条目的说明和下载指引
Mengqi97/chinese-medical-dataset：专门整理中文医学数据集的汇总仓库（数据汇总、样例、下载链接）

可得性与坑：哪些免费、哪些受限、找不到怎么办

免费获取首选：Toyhom 对话集（GitHub 直下）和 Huatuo-26M（Apache-2.0，Hugging Face 直接加载）门槛最低、最省事
商用受限：cMedQA2 是 GPL-3.0、只限非商业研究、还得引用论文——这条最容易被忽略，商用前务必避开
国内平台基本都要登录：飞桨 AI Studio、和鲸、天池一般要先注册登录才能下载或在线挂载
境外源可能不稳：Hugging Face、Kaggle 在国内能不能打开看网络情况，以实际为准
有的要“信任执行脚本”：Hugging Face 上部分数据集需要你信任并执行它的代码（trust_remote_code），企业内网或合规环境下要先评估能不能这么做
找不到或下不动时的备选路：一是换镜像（比如境外源进不去，就找天池或和鲸上的同一份镜像）；二是回到上面三个聚合目录里按图索骥；三是换同方向的另一个数据集顶上

用之前注意：许可和合规别踩坑

许可一份份确认，别想当然。 各家口径差很大：cMedQA2 是 GPL-3.0 + 仅非商业 + 要引用，管得最严；Huatuo-26M 和 shibing624/medical 是 Apache-2.0，宽松些；Toyhom 对话集许可不显眼，商用前以仓库页为准，拿不准就当只能研究用
打包集的“总许可”盖不住子来源。 像 BianQue-1.0、shibing624/medical 这种多来源拼起来的，整体标的许可不代表每个子来源都能跟着用——子来源各自的限制（比如 cMedQA2 的非商业）照样约束你，商用要逐个回溯
这些数据不是临床金标准，不能直接当看病依据。 它们大多来自在线问诊和健康网站，质量参差、可能有噪声和口语化内容。真要用在医疗场景前，必须先清洗、去隐私、找专业人士复核，绝不能拿它直接给人下诊断结论
规模数字以官方页面为准。 本文里的数量都来自各仓库和论文的自述，没有逐条重新统计，引用前请以官方页面当前显示的为准

如果觉得来源太散、一个个核许可太费时间，我们可以帮你做一次深度数据可得性检索：把同一方向的数据集集中列清（规模、格式、字段），并逐源诚实标出“免登录直下/要登录平台/要信任执行脚本/仅研究不可商用/许可需逐子集回溯”，再给出找不到或受限时的替代路径——简单说，就是帮你弄清楚“到底能不能拿到、能不能商用”，拿到一份能直接照着行动、又不会踩授权坑的清单。如果你正为找数据发愁，可以找 数聚天成 DeepSData 聊聊，我们专门做这种数据可得性深度检索，帮你在散落各处的来源里找到能用的，并诚实告诉你到底找不找得到。要不要这么做，你说了算。

说明：本文为公开资料整理，仅供参考；平台政策、价格、下载方式与链接随时可能变化，本文不保证持续更新，请以各官方页面最新信息为准。

中文医疗问答数据集下载与许可：华佗26M、cMedQA2

开源中文医疗问答数据集去哪找？普通用户能直接用的有哪些？

入门首选：免登录、点开就能下载的

适合训练或微调的打包集

常用作评测基准的

国内平台（需要登录）

不知道还有啥？翻这几个聚合目录

可得性与坑：哪些免费、哪些受限、找不到怎么办

用之前注意：许可和合规别踩坑

参考来源

同领域 · 自然语言处理

中文文本分类数据集下载与来源：THUCNews、CLUE、ChineseNlpCorpus

中文情感分析语料库下载：ChnSentiCorp、weibo_senti_100k

想知道这些数据到底能不能拿、能不能用？