中文文本分类数据集下载与来源：THUCNews、CLUE、ChineseNlpCorpus

中文文本分类数据集：去哪儿找、怎么拿、有哪些坑

主要去哪儿找

中文文本分类的数据，基本散在三大类地方：

新闻类数据（财经、体育、科技、娱乐等）：最经典的有清华的THUCNews、搜狗新闻语料、今日头条的标题数据。
评论/情感类数据（好评差评、电商外卖评论）：GitHub上有个整理好的合集，CSV格式，直接下载，特别适合做“判好评坏评”这种活儿。
综合评测基准里的现成子集：像CLUE（中文语言理解评测）里，就打包了好几个能直接用的小数据集。

下面逐个列出真实来源，并告诉你哪些能免费下、哪些要注册、哪些只能学术用。

逐个来源说清楚

1. 新闻分类的经典集：THUCNews（清华）

是什么：清华大学NLP实验室整理的新浪新闻数据，约74万篇、14个类别（财经、体育、科技、娱乐等），纯文本格式，体量约2GB以上。做中文新闻分类最常被引用的基准数据集。
官方入口：http://thuctc.thunlp.org/

（提供工具包和数据申请入口）

省事的镜像：https://huggingface.co/datasets/seamew/THUCNews

（Hugging Face上的镜像，懂点技术可以一键加载。但最终授权仍以原始集为准）

注意：官方写明仅供学术/研究使用。能不能商用、能不能再分发，得看官方授权页，别默认随便用。

2. 中文评测基准里的现成子集：CLUE

CLUE（中文语言理解评测基准）里打包了几个可以直接拿来做文本分类的数据集：

TNEWS：今日头条短新闻分类，约26.6万条训练数据、15个类别。
IFLYTEK：APP应用描述的长文本分类，1.7万多条样本、119个类别。
CSLDCP：中文科学文献的学科分类，67个类别。
EPRSTMT：电商评论的二分类情感（好评/差评，属于小样本任务）。
官方GitHub：https://github.com/CLUEbenchmark/CLUE

（含基准说明和基线代码）

一键加载镜像：https://huggingface.co/datasets/clue

（tnews、iflytek等子集，json/parquet格式）

核对数字：https://www.cluebenchmarks.com/introduce.html

（各任务定义、训练/验证/测试规模，类别数和样本量以此页为准）

注意：主要面向研究用途，各子集的许可以原始页面为准。

3. 评论/情感分类常用合集：ChineseNlpCorpus

是什么：GitHub上整理好的中文情感/评论分类合集，CSV格式，开源、可直接下载。特别适合做“好评还是差评”这种二分类的入门数据。里面包含：
ChnSentiCorp：酒店评论二分类
waimai_10k：外卖评论约1.2万条（好评约4千、差评约8千）
online_shopping_10cats：10类商品共6万多条评论（好评差评各约3万）
weibo_senti_100k：新浪微博10万多条（好评差评各约5万）
地址：https://github.com/SophonPlus/ChineseNlpCorpus

4. 今日头条新闻标题分类：toutiao数据集

是什么：约38万条头条新闻、15个类别。字段用_!_分隔（新闻ID、类别码、类别名、标题、关键词），纯文本，可直接下载。
地址：https://github.com/fate233/toutiao-text-classfication-dataset

5. 搜狗新闻语料库 SogouCS（搜狗实验室）

是什么：XML格式的新闻语料，靠网址（url）推断频道来做分类。精简版约一两百个文本文件，完整版解压约3.3GB。
地址：http://www.sogou.com/labs/resource/cs.php
注意：这个用起来要费点劲——文件是ANSI/XML编码，需要先做编码转换和解析（对普通人不友好）。另外，部分版本需要先注册、同意协议才能下载，以官方页面为准。

6. 国内综合平台（要登录，数据集随平台变动）

下面几个是国内可以直接访问的数据平台，里面也有中文文本分类/情感分析的数据集。但通常要登录（部分要实名），而且具体有什么、规模多大，会随平台更新变化。下面写的只是参考，请以平台实时页面为准：

阿里云天池：https://tianchi.aliyun.com/dataset/

（含NLP新闻分类等数据集和学习赛）

百度飞桨AI Studio：https://aistudio.baidu.com/datasetoverview

（含中文新闻标题分类等，多和项目/比赛绑定）

和鲸社区Heywhale：https://www.heywhale.com/home

（国内数据科学社区，有文本分类/情感分析数据集和示例笔记本）

7. 国际平台入口（需要对应账号）

Kaggle：https://www.kaggle.com/code/gpreda/chinese-text-classification

（国际平台上的中文文本分类示例和配套数据，需要Kaggle账号）

8. 学术付费/受限库（个人一般下不了）

这两个里面有不少高质量的中文文本语料，但主要靠高校图书馆订阅或机构付费/申请，个人很难免费直接下载。适合有校园网或机构账号的科研人员：

CSMAR（国泰安/希施玛）：https://data.csmar.com/

（含财经新闻、舆情文本）

CnOpenData：https://www.cnopendata.com/

（含人民日报文本、A股新闻舆情、省市官方报纸等）

好不好拿：分三档说清楚

把上面的来源按“好不好拿”分三档，心里更有数：

直接免费下（最省事）：ChineseNlpCorpus评论合集、今日头条标题数据集，以及THUCNews和CLUE子集的Hugging Face镜像（懂技术的话一键加载）。
免费但要费点劲：THUCNews官方入口（要注意学术授权）、搜狗SogouCS（要编码转换、部分版本要注册同意协议）、天池/飞桨/和鲸（要登录、部分实名）。
付费或机构限定：CSMAR、CnOpenData，个人基本下不了，得靠学校或单位账号。

几个真实的坑，提前说清楚：

网盘链接容易失效：网上常被转发的“复旦中文文本分类语料”这类链接，往往走百度网盘、带提取码，时间一长容易失效。这种链接能不能用、数字准不准，都以发布方当前页面为准。
找不到时的替代路径：
官方集子打不开 → 找Hugging Face上的镜像（比如THUCNews的seamew镜像）。
网盘链接失效 → 转去CLUE里找同类的现成子集（比如要新闻分类就用TNEWS）。
评论情感数据没找到合适的 → 直接用ChineseNlpCorpus这个整理好的合集起步。

用之前注意：许可与合规，避开版权坑

先看许可，别默认随便用：THUCNews、搜狗语料、复旦语料这类，很多写的是“仅供学术研究”。能不能商用、能不能再分发，要逐个看各自官方授权页，不能想当然，以官方页面为准。
新闻和评论原文有版权：这些数据里的新闻正文、用户评论本身是有版权的内容。自己做研究、做模型练手一般没问题，但要是想拿去商用、对外发布或二次分发，务必先确认授权，避免踩版权坑。
国内平台要看平台条款：天池、飞桨、和鲸上的数据集各有各的使用条款，下载前留意一下平台和发布者的说明。

如果太零散、想省时间

中文文本分类的数据，真实情况就是“源很多但很零散，好不好拿差别很大”。新闻分类和评论情感是两套完全不同的数据，经典集散落在高校实验室网页、GitHub、网盘和Hugging Face镜像里，学术付费库又是另一档。一个个点开核对许可、确认能不能下载，确实挺费时间。

如果你不想自己挨个翻，我们的服务可以帮上忙：数聚天成 DeepSData 可以做一次深度数据可得性检索——跨这些零散来源，逐个查清“有什么、什么格式、许可怎样、要不要登录或付费”，最后给你一个诚实的判断：这份数据到底是直接免费下、还是要校园网、还是只能申请。命中的时候会告诉你路径，命中不了也会给你替代方案。我们替你把“广撒网 + 老实交底”这件麻烦事做完，但最终的许可核对，还是建议你到官方页面确认，外链也不保证长期有效。

需要的话，告诉我们你想找什么、必须满足哪些条件就行。

本文仅作公开来源整理和可得性参考，不构成医疗、法律、投资、商业决策或合规意见；正式使用前请以官方页面、授权条款和专业意见为准。

说明：本文为公开资料整理，仅供参考；平台政策、价格、下载方式与链接随时可能变化，本文不保证持续更新，请以各官方页面最新信息为准。