中文文本分类数据集:去哪儿找、怎么拿、有哪些坑

主要去哪儿找

中文文本分类的数据,基本散在三大类地方:

  • 新闻类数据(财经、体育、科技、娱乐等):最经典的有清华的THUCNews、搜狗新闻语料、今日头条的标题数据。
  • 评论/情感类数据(好评差评、电商外卖评论):GitHub上有个整理好的合集,CSV格式,直接下载,特别适合做“判好评坏评”这种活儿。
  • 综合评测基准里的现成子集:像CLUE(中文语言理解评测)里,就打包了好几个能直接用的小数据集。

下面逐个列出真实来源,并告诉你哪些能免费下、哪些要注册、哪些只能学术用。


逐个来源说清楚

1. 新闻分类的经典集:THUCNews(清华)

  • 是什么:清华大学NLP实验室整理的新浪新闻数据,约74万篇、14个类别(财经、体育、科技、娱乐等),纯文本格式,体量约2GB以上。做中文新闻分类最常被引用的基准数据集。
  • 官方入口:http://thuctc.thunlp.org/

(提供工具包和数据申请入口)

  • 省事的镜像:https://huggingface.co/datasets/seamew/THUCNews

(Hugging Face上的镜像,懂点技术可以一键加载。但最终授权仍以原始集为准)

  • 注意:官方写明仅供学术/研究使用。能不能商用、能不能再分发,得看官方授权页,别默认随便用

2. 中文评测基准里的现成子集:CLUE

CLUE(中文语言理解评测基准)里打包了几个可以直接拿来做文本分类的数据集:

  • TNEWS:今日头条短新闻分类,约26.6万条训练数据、15个类别。
  • IFLYTEK:APP应用描述的长文本分类,1.7万多条样本、119个类别。
  • CSLDCP:中文科学文献的学科分类,67个类别。
  • EPRSTMT:电商评论的二分类情感(好评/差评,属于小样本任务)。
  • 官方GitHub:https://github.com/CLUEbenchmark/CLUE

(含基准说明和基线代码)

  • 一键加载镜像:https://huggingface.co/datasets/clue

(tnews、iflytek等子集,json/parquet格式)

  • 核对数字:https://www.cluebenchmarks.com/introduce.html

(各任务定义、训练/验证/测试规模,类别数和样本量以此页为准)

  • 注意:主要面向研究用途,各子集的许可以原始页面为准。

3. 评论/情感分类常用合集:ChineseNlpCorpus

  • 是什么:GitHub上整理好的中文情感/评论分类合集,CSV格式,开源、可直接下载。特别适合做“好评还是差评”这种二分类的入门数据。里面包含:
  • ChnSentiCorp:酒店评论二分类
  • waimai_10k:外卖评论约1.2万条(好评约4千、差评约8千)
  • online_shopping_10cats:10类商品共6万多条评论(好评差评各约3万)
  • weibo_senti_100k:新浪微博10万多条(好评差评各约5万)
  • 地址:https://github.com/SophonPlus/ChineseNlpCorpus

4. 今日头条新闻标题分类:toutiao数据集

  • 是什么:约38万条头条新闻、15个类别。字段用_!_分隔(新闻ID、类别码、类别名、标题、关键词),纯文本,可直接下载。
  • 地址:https://github.com/fate233/toutiao-text-classfication-dataset

5. 搜狗新闻语料库 SogouCS(搜狗实验室)

  • 是什么:XML格式的新闻语料,靠网址(url)推断频道来做分类。精简版约一两百个文本文件,完整版解压约3.3GB。
  • 地址:http://www.sogou.com/labs/resource/cs.php
  • 注意:这个用起来要费点劲——文件是ANSI/XML编码,需要先做编码转换和解析(对普通人不友好)。另外,部分版本需要先注册、同意协议才能下载,以官方页面为准

6. 国内综合平台(要登录,数据集随平台变动)

下面几个是国内可以直接访问的数据平台,里面也有中文文本分类/情感分析的数据集。但通常要登录(部分要实名),而且具体有什么、规模多大,会随平台更新变化。下面写的只是参考,请以平台实时页面为准

  • 阿里云天池:https://tianchi.aliyun.com/dataset/

(含NLP新闻分类等数据集和学习赛)

  • 百度飞桨AI Studio:https://aistudio.baidu.com/datasetoverview

(含中文新闻标题分类等,多和项目/比赛绑定)

  • 和鲸社区Heywhale:https://www.heywhale.com/home

(国内数据科学社区,有文本分类/情感分析数据集和示例笔记本)

7. 国际平台入口(需要对应账号)

  • Kaggle:https://www.kaggle.com/code/gpreda/chinese-text-classification

(国际平台上的中文文本分类示例和配套数据,需要Kaggle账号)

8. 学术付费/受限库(个人一般下不了)

这两个里面有不少高质量的中文文本语料,但主要靠高校图书馆订阅或机构付费/申请,个人很难免费直接下载。适合有校园网或机构账号的科研人员:

  • CSMAR(国泰安/希施玛):https://data.csmar.com/

(含财经新闻、舆情文本)

  • CnOpenData:https://www.cnopendata.com/

(含人民日报文本、A股新闻舆情、省市官方报纸等)


好不好拿:分三档说清楚

把上面的来源按“好不好拿”分三档,心里更有数:

  • 直接免费下(最省事):ChineseNlpCorpus评论合集、今日头条标题数据集,以及THUCNews和CLUE子集的Hugging Face镜像(懂技术的话一键加载)。
  • 免费但要费点劲:THUCNews官方入口(要注意学术授权)、搜狗SogouCS(要编码转换、部分版本要注册同意协议)、天池/飞桨/和鲸(要登录、部分实名)。
  • 付费或机构限定:CSMAR、CnOpenData,个人基本下不了,得靠学校或单位账号。

几个真实的坑,提前说清楚:

  • 网盘链接容易失效:网上常被转发的“复旦中文文本分类语料”这类链接,往往走百度网盘、带提取码,时间一长容易失效。这种链接能不能用、数字准不准,都以发布方当前页面为准。
  • 找不到时的替代路径
  • 官方集子打不开 → 找Hugging Face上的镜像(比如THUCNews的seamew镜像)。
  • 网盘链接失效 → 转去CLUE里找同类的现成子集(比如要新闻分类就用TNEWS)。
  • 评论情感数据没找到合适的 → 直接用ChineseNlpCorpus这个整理好的合集起步。

用之前注意:许可与合规,避开版权坑

  • 先看许可,别默认随便用:THUCNews、搜狗语料、复旦语料这类,很多写的是“仅供学术研究”。能不能商用、能不能再分发,要逐个看各自官方授权页,不能想当然,以官方页面为准
  • 新闻和评论原文有版权:这些数据里的新闻正文、用户评论本身是有版权的内容。自己做研究、做模型练手一般没问题,但要是想拿去商用、对外发布或二次分发,务必先确认授权,避免踩版权坑。
  • 国内平台要看平台条款:天池、飞桨、和鲸上的数据集各有各的使用条款,下载前留意一下平台和发布者的说明。

如果太零散、想省时间

中文文本分类的数据,真实情况就是“源很多但很零散,好不好拿差别很大”。新闻分类和评论情感是两套完全不同的数据,经典集散落在高校实验室网页、GitHub、网盘和Hugging Face镜像里,学术付费库又是另一档。一个个点开核对许可、确认能不能下载,确实挺费时间。

如果你不想自己挨个翻,我们的服务可以帮上忙:数聚天成 DeepSData 可以做一次深度数据可得性检索——跨这些零散来源,逐个查清“有什么、什么格式、许可怎样、要不要登录或付费”,最后给你一个诚实的判断:这份数据到底是直接免费下、还是要校园网、还是只能申请。命中的时候会告诉你路径,命中不了也会给你替代方案。我们替你把“广撒网 + 老实交底”这件麻烦事做完,但最终的许可核对,还是建议你到官方页面确认,外链也不保证长期有效。

需要的话,告诉我们你想找什么、必须满足哪些条件就行。


本文仅作公开来源整理和可得性参考,不构成医疗、法律、投资、商业决策或合规意见;正式使用前请以官方页面、授权条款和专业意见为准。

说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。