求中文命名实体识别(NER)公开标注数据集:去哪找、能不能拿到
中文命名实体识别(NER,即从文本中自动识别出人名、地名、机构名等实体)是国内自然语言处理里资源最成熟的方向之一。你要找的这类公开标注数据集是存在的,而且有好几个经典、免费、可以直接下载的选择,格式也大多规整,非技术人员按步骤也能拿到。真正的难点不在“有没有”,而在两点:一是同一个数据集往往散落在 GitHub、Hugging Face、天池、飞桨等多个平台,版本和标注方案还可能有差异;二是医学等敏感领域的数据集通常要注册账号、同意评测协议,甚至只限学术竞赛用途,不能默认拿来就商用。
下面先把免费、直接可下的主流数据集列清楚,再说清哪些受限、找不到时怎么办,以及使用前在许可和合规上要注意什么。
去哪找:真实来源逐个列清
开箱即用、最推荐先看的
- CLUENER2020(中文细粒度 NER,10 类实体,CLUE 官方出品):<https://github.com/CLUEbenchmark/CLUENER2020>
源自新浪新闻,标注了地址、书名、公司、游戏、政府、电影、姓名、组织、职位、景点共 10 类实体,训练集 10748 条、验证集 1343 条,JSON 格式,GitHub 直接下载,无需申请。这是目前对非技术用户最友好、可直接上手的中文 NER 数据集。若要在论文里引用,它有配套的 arXiv 论文(编号 2001.04351)。
- 人民日报 + MSRA 等一站式打包语料:<https://github.com/yaleimeng/NER_corpus_chinese>
把人民日报 1998、MSRA、玻森等常用中文 NER 语料整理在一处,格式规整,适合一次性拿到多份基准数据。注意:人民日报原始语料属于版权材料,仓库一般只提供加工后的标注文件,原始语料需到官方渠道注册下载(见下文“使用前须知”)。
经典学术基准(人名/地名/机构名及社媒、简历领域)
- MSRA 微软亚研院 NER(Hugging Face 加载入口):<https://huggingface.co/datasets/levow/msra_ner>
人名、地名、机构名三类实体,约 4.5 万训练句 + 3442 测试句,来自 SIGHAN2006。在 Hugging Face 上可用 datasets 库一行代码加载,免费。
- Weibo 微博社媒 NER(golden-horse 仓库):<https://github.com/hltcoe/golden-horse>
出自 EMNLP2015 的经典社媒 NER 集,4 类实体(地名、人名、机构、地缘政治),含命名实体与名词性提及,BIO 标注,许可为 CC BY-SA 3.0,免费直下。它在 Hugging Face 也有镜像:<https://huggingface.co/datasets/hltcoe/weibo_ner>。使用前请留意后文提到的测试集数据泄漏问题。
(Resume 简历领域 NER 常与 MSRA、Weibo 一起作为学术基准,8 类实体,源自上市公司高管简历,通常可在上面几个聚合仓里找到;具体入口以各仓库页面为准。)
医学领域(要注册申请、有使用限制)
- CBLUE 中文医疗评测基准 / CMeEE(阿里云天池):<https://tianchi.aliyun.com/dataset/95414>
医学 NER 的首选,9 大类医学实体,训练 1.5 万、验证 5 千、测试 3 千,来自 CHIP2020 评测。需注册天池账号并同意评测/数据使用协议后下载,是否可商用以官方页面为准。其任务与协议的官方说明在 CBLUE 挑战榜:<http://www.cips-chip.org.cn/2021/CBLUE>。
- 医渡云 Yidu-S4K 电子病历数据集(阿里云天池):<https://tianchi.aliyun.com/dataset/144419>
CCKS2019 电子病历 NER,医渡云出品。官方声明仅限 CCKS 竞赛评测使用,需注册登录并同意协议,商用不能默认,需另行确认授权。它在开放知识图谱平台也有另一入口:<http://openkg.cn/dataset/yidu-s4k>,同样受“仅限 CCKS 评测用途”约束。
国内平台聚合页与一键加载
- 阿里云天池 — NER 常用数据集汇总:<https://tianchi.aliyun.com/dataset/145108>
聚合了 MSRA、淘宝电商、Youku 文娱、简历等多个中文 NER 数据集,垂类场景(电商、文娱、语音)可从这里入手。需注册登录天池(国内手机号即可)后下载。
- 和鲸社区 Heywhale — 数据集与项目入口:<https://www.heywhale.com/home/dataset>
含中文 NER 相关数据集与可运行的 Notebook 项目。需注册登录后下载,具体数据集许可以各页面为准。
- 百度飞桨 AI Studio 星河社区(PaddleNLP 内置 MSRA-NER):<https://aistudio.baidu.com/overview>
PaddleNLP 已把 MSRA-NER 内置,一行代码即可加载、无需手动找文件,最适合非技术用户快速上手。平台需注册登录,具体项目与数据以页面为准。
找数据集的“地图”(聚合入口,最省事的第一站)
- CLUEDatasetSearch — 搜所有中文 NLP 数据集:<https://github.com/CLUEbenchmark/CLUEDatasetSearch>
把大量中文数据集(含 NER)的下载链接集中在一处,免费,是找数据的第一站。
- awesome-chinese-ner — 中文 NER 资源总汇:<https://github.com/taishan1994/awesome-chinese-ner>
覆盖较全的中文 NER 论文、工具、数据集与预训练模型清单,含多行业数据集与下载指引,免费。
可得性与注意:哪些免费直下、哪些受限、找不到时怎么办
- 免费直接可下、无需申请:CLUENER2020、Weibo(golden-horse)、以及 MSRA 在 Hugging Face 上的加载入口,都可以直接获取。非技术用户想最快上手,建议直接从 CLUENER2020 开始,或用飞桨内置的 MSRA-NER。
- 需要注册登录才能下:天池、和鲸、飞桨 AI Studio 上的数据集,一般都要先注册(国内手机号即可)。非技术用户容易卡在账号注册和平台操作这一步,这是正常门槛,不是数据本身不可得。
- 需要同意协议、且用途受限:医学类的 CMeEE、Yidu-S4K 除了注册,还要同意评测/数据使用协议;Yidu-S4K 官方明确仅限 CCKS 竞赛评测使用,商用不能默认,务必以官方页面为准。
- 不是自由下载、需付费或机构许可:OntoNotes(含中文部分)由美国语言数据联盟 LDC 分发,通常需要机构会员或付费许可,不能像 MSRA 那样直接下载,以 LDC 官方为准。
- 找不到某个入口时的替代路径:先去上面两个聚合仓(CLUEDatasetSearch、awesome-chinese-ner)里检索名字;同一个数据集往往在 GitHub、Hugging Face、天池上都有副本,某一处打不开可以换另一处。如果是垂类场景(电商、文娱、语音),优先看天池的汇总页。
使用前须知:许可、合规与常见的坑
- 人民日报语料有版权:GitHub 仓库一般只提供加工后的标注文件或处理工具,原始语料需到官方“现代汉语多级加工语料库”注册后自行下载。相关处理工具可参考 <https://github.com/howl-anderson/tools_for_corpus_of_people_daily>(工具免费,但原始语料属版权材料,以官方页面为准)。
- 医学数据集不能默认可商用:CMeEE、Yidu-S4K 都带使用协议,Yidu-S4K 更是明确仅限竞赛评测;正式使用(尤其是商用或对外发布)前,必须回到官方页面确认授权范围。
- 注意测试集数据泄漏问题:学术界已有研究指出,Weibo 和 WikiAnn 的测试集存在数据泄漏(约 17% 和 13% 的测试样本在训练/开发集里出现过)。做严肃评测或对外汇报模型效果时要留意,最好在说明里注明。
- 同名数据集多处镜像、版本可能不一:MSRA、Weibo 在 GitHub、Hugging Face、天池上都有副本,标注方案(BIO 还是 BIOES)、是否含名词性提及、CMeEE 的 V1 与 V2 等都可能有差异。落地时要对齐你实际用的那个版本,避免张冠李戴。
- 具体条数与许可证细节以官方为准:本文引用的数字来自公开资料转述,个别数据集的最新条数、许可证版本可能已更新。正式引用或写进合同、论文前,请以对应官方数据页标注的信息为准。
如果来源太分散,或想省时间
以上来源大多免费公开,你完全可以自己一处处翻找。如果你觉得来源太分散、不想在十几个 GitHub 仓库和竞赛页之间反复核对版本与许可,数聚天成 DeepSData 可以替你做一次深度数据可得性检索:把同一数据集在各平台的入口都摸一遍,标清哪个下载最省事、格式最规整、许可最干净,并如实告诉你到底能不能拿到——是免费直下、要注册、要同意协议,还是需付费或机构许可。这件事要不要做、做到什么程度,由你决定;我们不代下载第三方原始数据,也不承诺必然命中。
参考来源
- https://github.com/CLUEbenchmark/CLUENER2020
- https://github.com/CLUEbenchmark/CLUEDatasetSearch
- https://github.com/taishan1994/awesome-chinese-ner
- https://github.com/hltcoe/golden-horse
- https://huggingface.co/datasets/levow/msra_ner
- https://huggingface.co/datasets/hltcoe/weibo_ner
- https://github.com/yaleimeng/NER_corpus_chinese
- https://github.com/howl-anderson/tools_for_corpus_of_people_daily
- https://tianchi.aliyun.com/dataset/145108
- https://tianchi.aliyun.com/dataset/95414
- https://tianchi.aliyun.com/dataset/144419
- http://openkg.cn/dataset/yidu-s4k
- https://www.heywhale.com/home/dataset
- https://aistudio.baidu.com/overview
- http://www.cips-chip.org.cn/2021/CBLUE
