开源中文医疗问答数据集去哪找?普通用户能直接用的有哪些?
下面这份清单,把真实存在、能直接访问的中文医疗问答数据集按来源说清楚,同时告诉你每个到底免费不免费、能不能用在商业项目里。
入门首选:免登录、点开就能下载的
1. Toyhom/Chinese-medical-dialogue-data(中文医疗对话数据集)
- 来源:GitHub(点这里)
- 规模:大约79.2万条真实的医患问答,覆盖男科、内科、妇产科、肿瘤科、儿科、外科六大科室
- 格式:CSV,字段包括科室、标题、问题、答案
- 特点:开源,不用登录就能直接下载,是入门级最常用的真实问诊数据
- ⚠️ 注意:这份数据在仓库页上的许可说明不明显,想商用的话一定要先去仓库页确认清楚,拿不准就当成“只能研究用”。
另外,阿里云天池上有这份数据的镜像(天池 90163 号数据集),方便国内直接下载,但天池一般需要登录账号。
2. FreedomIntelligence/Huatuo-26M(华佗 26M)
- 来源:GitHub(点这里)和 Hugging Face
- 规模:号称目前最大的中文医疗问答数据集,约2600万条问答对,来自在线医学百科、知识库和问诊记录
- 许可:Apache-2.0,比较宽松
- 获取方式:数据按子集发布在 Hugging Face(分百科问答、知识图谱问答、问诊问答、精简版 Lite 四个子集),用 Python 的 datasets 库就能加载,没有明显的申请门槛(以官方页面为准)
- 官方论文:Huatuo-26M 论文(arXiv 2305.01526),数据规模数字以论文和仓库页为准
适合训练或微调的打包集
3. shibing624/medical(Hugging Face)
- 来源:Hugging Face 数据集页面
- 规模:约244万样本,打包成了三部分——预训练(百科+教材约37万)、微调(对话79万+百科36万+知识图谱79万+英文约11.6万)、偏好(约3800对)
- 格式:JSON
- 许可:整体标 Apache-2.0
- ⚠️ 两个提醒:一是它的数据预览或加载需要你“信任并执行它的脚本”;二是它是多来源拼起来的,整体许可盖不住每个子来源——子来源各自的限制对你仍然有效,商用要一个个回溯。
4. scutcyr/BianQue-1.0(扁鹊,Hugging Face)
- 来源:Hugging Face 页面
- 规模:超900万样本,是把 MedDialog-CN、IMCS-V2、cMedQA2、Chinese-medical-dialogue-data 等多个开源集合并成的“指令+多轮对话”集
- 特点:适合直接拿去做微调
- 同样的话:这是拼装集,每个子来源的原许可要逐一遵守
常用作评测基准的
5. zhangsheng93/cMedQA2(GitHub)
- 来源:GitHub 仓库
- 规模:10.8万个问题,约20.4万个答案,已经分好训练/验证/测试集,CSV 加候选 txt
- 许可:GPL-3.0,明确只限非商业研究,且使用要引用论文(Zhang et al. 2018, IEEE Access)
- ⚠️ 想商用的话这份基本用不了。同一作者还有一个上一代版本 cMedQA(v1),规模更小,许可同样是研究用途,可以拿来做对照。
6. webMedQA
- 从在线健康咨询网站采集的真实中文医疗问答,约6.3万个问题,常被当作医疗大模型的评测基准(具体以原始论文或仓库页面为准)
7. MedDialog(中文版)
- 医患对话约110万段、约400万轮次,规模很大。中文版常通过天池等镜像获取:天池 92110 号数据集。天池一般要登录才能下载,协议以页面为准。
国内平台(需要登录)
8. 中文医学问答数据集(百度飞桨 AI Studio)
- 来源:AI Studio 数据集页面
- 特点:国内平台上的中文医学问答数据集,一般要先登录星河社区,然后在线下载或在 Notebook 里挂载使用
- 规模、字段以页面为准
9. 和鲸社区数据集库(Heywhale)
- 来源:和鲸首页
- 特点:国内的数据科学社区,有医疗类数据集,下载或在线使用通常要登录账号,按各数据集页面的说明操作
不知道还有啥?翻这几个聚合目录
如果你觉得上面的还不够,或者想看看更多来源,这几个 GitHub 仓库是别人整理好的资源汇总,顺着链接就能找到更多 QA 来源和许可信息:
- GanjinZero/awesome_Chinese_medical_NLP:中文医学 NLP 公开资源大全(语料、问答、词向量、知识图谱、论文)
- openmedlab/Awesome-Medical-Dataset:医疗数据集汇总目录,含 cMedQA 等条目的说明和下载指引
- Mengqi97/chinese-medical-dataset:专门整理中文医学数据集的汇总仓库(数据汇总、样例、下载链接)
可得性与坑:哪些免费、哪些受限、找不到怎么办
- 免费获取首选:Toyhom 对话集(GitHub 直下)和 Huatuo-26M(Apache-2.0,Hugging Face 直接加载)门槛最低、最省事
- 商用受限:cMedQA2 是 GPL-3.0、只限非商业研究、还得引用论文——这条最容易被忽略,商用前务必避开
- 国内平台基本都要登录:飞桨 AI Studio、和鲸、天池一般要先注册登录才能下载或在线挂载
- 境外源可能不稳:Hugging Face、Kaggle 在国内能不能打开看网络情况,以实际为准
- 有的要“信任执行脚本”:Hugging Face 上部分数据集需要你信任并执行它的代码(trust_remote_code),企业内网或合规环境下要先评估能不能这么做
- 找不到或下不动时的备选路:一是换镜像(比如境外源进不去,就找天池或和鲸上的同一份镜像);二是回到上面三个聚合目录里按图索骥;三是换同方向的另一个数据集顶上
用之前注意:许可和合规别踩坑
- 许可一份份确认,别想当然。 各家口径差很大:cMedQA2 是 GPL-3.0 + 仅非商业 + 要引用,管得最严;Huatuo-26M 和 shibing624/medical 是 Apache-2.0,宽松些;Toyhom 对话集许可不显眼,商用前以仓库页为准,拿不准就当只能研究用
- 打包集的“总许可”盖不住子来源。 像 BianQue-1.0、shibing624/medical 这种多来源拼起来的,整体标的许可不代表每个子来源都能跟着用——子来源各自的限制(比如 cMedQA2 的非商业)照样约束你,商用要逐个回溯
- 这些数据不是临床金标准,不能直接当看病依据。 它们大多来自在线问诊和健康网站,质量参差、可能有噪声和口语化内容。真要用在医疗场景前,必须先清洗、去隐私、找专业人士复核,绝不能拿它直接给人下诊断结论
- 规模数字以官方页面为准。 本文里的数量都来自各仓库和论文的自述,没有逐条重新统计,引用前请以官方页面当前显示的为准
如果觉得来源太散、一个个核许可太费时间,我们可以帮你做一次深度数据可得性检索:把同一方向的数据集集中列清(规模、格式、字段),并逐源诚实标出“免登录直下/要登录平台/要信任执行脚本/仅研究不可商用/许可需逐子集回溯”,再给出找不到或受限时的替代路径——简单说,就是帮你弄清楚“到底能不能拿到、能不能商用”,拿到一份能直接照着行动、又不会踩授权坑的清单。如果你正为找数据发愁,可以找 数聚天成 DeepSData 聊聊,我们专门做这种数据可得性深度检索,帮你在散落各处的来源里找到能用的,并诚实告诉你到底找不找得到。要不要这么做,你说了算。
说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。
参考来源
- https://github.com/Toyhom/Chinese-medical-dialogue-data
- https://github.com/zhangsheng93/cMedQA2
- https://github.com/zhangsheng93/cMedQA
- https://github.com/FreedomIntelligence/Huatuo-26M
- https://huggingface.co/datasets/shibing624/medical
- https://tianchi.aliyun.com/dataset/92110
- https://tianchi.aliyun.com/dataset/90163
- https://huggingface.co/scutcyr/BianQue-1.0
- https://aistudio.baidu.com/aistudio/datasetdetail/52093
- https://www.heywhale.com/home/dataset
- https://github.com/GanjinZero/awesome_Chinese_medical_NLP
- https://github.com/openmedlab/Awesome-Medical-Dataset
- https://github.com/Mengqi97/chinese-medical-dataset
- https://arxiv.org/pdf/2305.01526
