求中文命名实体识别（NER）公开标注数据集：去哪找、能不能拿到

中文命名实体识别（NER，即从文本中自动识别出人名、地名、机构名等实体）是国内自然语言处理里资源最成熟的方向之一。你要找的这类公开标注数据集是存在的，而且有好几个经典、免费、可以直接下载的选择，格式也大多规整，非技术人员按步骤也能拿到。真正的难点不在“有没有”，而在两点：一是同一个数据集往往散落在 GitHub、Hugging Face、天池、飞桨等多个平台，版本和标注方案还可能有差异；二是医学等敏感领域的数据集通常要注册账号、同意评测协议，甚至只限学术竞赛用途，不能默认拿来就商用。

下面先把免费、直接可下的主流数据集列清楚，再说清哪些受限、找不到时怎么办，以及使用前在许可和合规上要注意什么。

去哪找：真实来源逐个列清

开箱即用、最推荐先看的

CLUENER2020（中文细粒度 NER，10 类实体，CLUE 官方出品）：<https://github.com/CLUEbenchmark/CLUENER2020>

源自新浪新闻，标注了地址、书名、公司、游戏、政府、电影、姓名、组织、职位、景点共 10 类实体，训练集 10748 条、验证集 1343 条，JSON 格式，GitHub 直接下载，无需申请。这是目前对非技术用户最友好、可直接上手的中文 NER 数据集。若要在论文里引用，它有配套的 arXiv 论文（编号 2001.04351）。

人民日报 + MSRA 等一站式打包语料：<https://github.com/yaleimeng/NER_corpus_chinese>

把人民日报 1998、MSRA、玻森等常用中文 NER 语料整理在一处，格式规整，适合一次性拿到多份基准数据。注意：人民日报原始语料属于版权材料，仓库一般只提供加工后的标注文件，原始语料需到官方渠道注册下载（见下文“使用前须知”）。

经典学术基准（人名/地名/机构名及社媒、简历领域）

MSRA 微软亚研院 NER（Hugging Face 加载入口）：<https://huggingface.co/datasets/levow/msra_ner>

人名、地名、机构名三类实体，约 4.5 万训练句 + 3442 测试句，来自 SIGHAN2006。在 Hugging Face 上可用 datasets 库一行代码加载，免费。

Weibo 微博社媒 NER（golden-horse 仓库）：<https://github.com/hltcoe/golden-horse>

出自 EMNLP2015 的经典社媒 NER 集，4 类实体（地名、人名、机构、地缘政治），含命名实体与名词性提及，BIO 标注，许可为 CC BY-SA 3.0，免费直下。它在 Hugging Face 也有镜像：<https://huggingface.co/datasets/hltcoe/weibo_ner>。使用前请留意后文提到的测试集数据泄漏问题。

（Resume 简历领域 NER 常与 MSRA、Weibo 一起作为学术基准，8 类实体，源自上市公司高管简历，通常可在上面几个聚合仓里找到；具体入口以各仓库页面为准。）

医学领域（要注册申请、有使用限制）

CBLUE 中文医疗评测基准 / CMeEE（阿里云天池）：<https://tianchi.aliyun.com/dataset/95414>

医学 NER 的首选，9 大类医学实体，训练 1.5 万、验证 5 千、测试 3 千，来自 CHIP2020 评测。需注册天池账号并同意评测/数据使用协议后下载，是否可商用以官方页面为准。其任务与协议的官方说明在 CBLUE 挑战榜：<http://www.cips-chip.org.cn/2021/CBLUE>。

医渡云 Yidu-S4K 电子病历数据集（阿里云天池）：<https://tianchi.aliyun.com/dataset/144419>

CCKS2019 电子病历 NER，医渡云出品。官方声明仅限 CCKS 竞赛评测使用，需注册登录并同意协议，商用不能默认，需另行确认授权。它在开放知识图谱平台也有另一入口：<http://openkg.cn/dataset/yidu-s4k>，同样受“仅限 CCKS 评测用途”约束。

国内平台聚合页与一键加载

阿里云天池 — NER 常用数据集汇总：<https://tianchi.aliyun.com/dataset/145108>

聚合了 MSRA、淘宝电商、Youku 文娱、简历等多个中文 NER 数据集，垂类场景（电商、文娱、语音）可从这里入手。需注册登录天池（国内手机号即可）后下载。

和鲸社区 Heywhale — 数据集与项目入口：<https://www.heywhale.com/home/dataset>

含中文 NER 相关数据集与可运行的 Notebook 项目。需注册登录后下载，具体数据集许可以各页面为准。

百度飞桨 AI Studio 星河社区（PaddleNLP 内置 MSRA-NER）：<https://aistudio.baidu.com/overview>

PaddleNLP 已把 MSRA-NER 内置，一行代码即可加载、无需手动找文件，最适合非技术用户快速上手。平台需注册登录，具体项目与数据以页面为准。

找数据集的“地图”（聚合入口，最省事的第一站）

CLUEDatasetSearch — 搜所有中文 NLP 数据集：<https://github.com/CLUEbenchmark/CLUEDatasetSearch>

把大量中文数据集（含 NER）的下载链接集中在一处，免费，是找数据的第一站。

awesome-chinese-ner — 中文 NER 资源总汇：<https://github.com/taishan1994/awesome-chinese-ner>

覆盖较全的中文 NER 论文、工具、数据集与预训练模型清单，含多行业数据集与下载指引，免费。

可得性与注意：哪些免费直下、哪些受限、找不到时怎么办

免费直接可下、无需申请：CLUENER2020、Weibo（golden-horse）、以及 MSRA 在 Hugging Face 上的加载入口，都可以直接获取。非技术用户想最快上手，建议直接从 CLUENER2020 开始，或用飞桨内置的 MSRA-NER。

需要注册登录才能下：天池、和鲸、飞桨 AI Studio 上的数据集，一般都要先注册（国内手机号即可）。非技术用户容易卡在账号注册和平台操作这一步，这是正常门槛，不是数据本身不可得。

需要同意协议、且用途受限：医学类的 CMeEE、Yidu-S4K 除了注册，还要同意评测/数据使用协议；Yidu-S4K 官方明确仅限 CCKS 竞赛评测使用，商用不能默认，务必以官方页面为准。

不是自由下载、需付费或机构许可：OntoNotes（含中文部分）由美国语言数据联盟 LDC 分发，通常需要机构会员或付费许可，不能像 MSRA 那样直接下载，以 LDC 官方为准。

找不到某个入口时的替代路径：先去上面两个聚合仓（CLUEDatasetSearch、awesome-chinese-ner）里检索名字；同一个数据集往往在 GitHub、Hugging Face、天池上都有副本，某一处打不开可以换另一处。如果是垂类场景（电商、文娱、语音），优先看天池的汇总页。

使用前须知：许可、合规与常见的坑

人民日报语料有版权：GitHub 仓库一般只提供加工后的标注文件或处理工具，原始语料需到官方“现代汉语多级加工语料库”注册后自行下载。相关处理工具可参考 <https://github.com/howl-anderson/tools_for_corpus_of_people_daily>（工具免费，但原始语料属版权材料，以官方页面为准）。

医学数据集不能默认可商用：CMeEE、Yidu-S4K 都带使用协议，Yidu-S4K 更是明确仅限竞赛评测；正式使用（尤其是商用或对外发布）前，必须回到官方页面确认授权范围。

注意测试集数据泄漏问题：学术界已有研究指出，Weibo 和 WikiAnn 的测试集存在数据泄漏（约 17% 和 13% 的测试样本在训练/开发集里出现过）。做严肃评测或对外汇报模型效果时要留意，最好在说明里注明。

同名数据集多处镜像、版本可能不一：MSRA、Weibo 在 GitHub、Hugging Face、天池上都有副本，标注方案（BIO 还是 BIOES）、是否含名词性提及、CMeEE 的 V1 与 V2 等都可能有差异。落地时要对齐你实际用的那个版本，避免张冠李戴。

具体条数与许可证细节以官方为准：本文引用的数字来自公开资料转述，个别数据集的最新条数、许可证版本可能已更新。正式引用或写进合同、论文前，请以对应官方数据页标注的信息为准。

如果来源太分散，或想省时间

以上来源大多免费公开，你完全可以自己一处处翻找。如果你觉得来源太分散、不想在十几个 GitHub 仓库和竞赛页之间反复核对版本与许可，数聚天成 DeepSData 可以替你做一次深度数据可得性检索：把同一数据集在各平台的入口都摸一遍，标清哪个下载最省事、格式最规整、许可最干净，并如实告诉你到底能不能拿到——是免费直下、要注册、要同意协议，还是需付费或机构许可。这件事要不要做、做到什么程度，由你决定；我们不代下载第三方原始数据，也不承诺必然命中。

求中文命名实体识别（NER）公开标注数据集：去哪找、能不能拿到