中文情感分析语料库下载：ChnSentiCorp、weibo_senti_100k

为啥？因为这个领域中文数据算是AI方向里最成熟的那批之一了。GitHub、百度飞桨、阿里天池、Hugging Face……随便一搜就是一堆“中文情感语料库”、“评论数据集”。但问题恰恰出在这里——同一个名字，出现在四个不同的地方，版本不一样、标注方式不一样、条数不一样，甚至连能不能商用都没写清楚。你拿到的到底是哪个版本？标注的是“好评/差评”还是“开心/愤怒/悲伤”？这些东西搞混了，模型训练出来就是废的。

所以别再跑来问我“有没有数据”，先问问自己：你要的是哪类情感？两分类还是多分类？要做研究还是想商用？想清楚再动手。下面我把真实能找到、能下得动的一手来源筛出来，按“最省事的”到“最权威但麻烦的”给你捋一遍。

一、新手首选：一个大仓库打包了多份

如果你现在就想练手、先搞点数据跑起来，最省事的办法是去GitHub找一个叫 SophonPlus/ChineseNlpCorpus 的仓库（https://github.com/SophonPlus/ChineseNlpCorpus）。这哥们儿把好几份中文情感语料整理到一起了，全是CSV格式（Excel就能打开），直接clone就能下。里面最常用、质量也比较稳的有这几份：

ChnSentiCorp（酒店评论）：差不多7000多条，好评差评二分类，这是中文情感分析的“行业基准线”，很多人拿它当入门起步。
weibo_senti_100k（新浪微博）：10万多条，正向和负向各一半，比例均衡，很适合做两分类训练。具体的下载入口页在这里：https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb
simplifyweibo_4_moods（微博，四种情绪）：36万多条，标的是“喜、怒、恶、乐”四类。如果你需要做多分类，这个体量够你用了。
waimai_10k（外卖评论）：1万条左右，负面偏多（约8000负、4000正），适合想看看差评集中在哪些问题的场景。
online_shopping_10_cats（电商评论）：10个品类共6万多条，两分类，正负各半。
dmsc_v2（豆瓣电影）、yf_dianping（餐饮）、yf_amazon：这三份都是“打分+评论”，可以直接拿评分当弱标注，比如5星就算正、1星就算负。体量很大（200万到700万条），但数据质量一般，要自己做清洗。

⚠️ 特别提醒：这些数据绝大多数是研究者从微博、豆瓣、电商抓的，严格说版权属于平台，它们只适合做学术研究和学习。仓库里很多没有附正式的LICENSE文件，所以你如果想拿这些数据去做商业应用，最好自己掂量一下合规风险。

二、想直接上手训练模型？Hugging Face 上有现成的切分版

如果你已经会写点代码，想直接加载数据开始训练，Hugging Face 上有些版本帮你切好了“训练、验证、测试”三份，一行 load_dataset 就能用，省得你自己去拆。

lansinuote/ChnSentiCorp（https://huggingface.co/datasets/lansinuote/ChnSentiCorp）：约12000条，训练/验证/测试切好了。注意这个条数跟GitHub上的7000多条不一样——所以我才说“同一个名字不是同一份数据”，拿之前一定看清楚。
seamew/ChnSentiCorp（https://huggingface.co/datasets/seamew/ChnSentiCorp）：另一个常用版本，格式是arrow的，也切好了。同样要核对版本。
t1annnnn/Chinese_sentimentAnalyze（https://huggingface.co/datasets/t1annnnn/Chinese_sentimentAnalyze）：把微博和购物评论合并了，约18.3万条，训练/验证/测试都有，适合做大一点规模的两分类训练。

三、想用学术权威的？这些评测集质量好，但多半要申请

如果你追求高精度、研究级、或者想跟论文做对比，那得走官方评测集的路子。这些数据质量最高、标注更细，但通常要官方申请、甚至当年报名比赛才能拿，不是点一下就能下。

SMP2020-EWECT（微博情绪分类）（https://smp2020ewect.github.io/）：6类情绪标注（积极/愤怒/悲伤/恐惧/惊奇/无情绪），有通用版和疫情版。需要走官方使用条款。
NLPCC 2014 / 2013（中文微博情感分析）（http://tcci.ccf.org.cn/conference/2014/pages/page04_sam.html，http://tcci.ccf.org.cn/conference/2013/pages/page04_sam.html）：7类细粒度情绪，XML格式。样例可以下载，但完整数据集偏学术用途，拿不到也别急，可以用下面那个转存仓库。

DinghaoXi/chinese-sentiment-datasets（https://github.com/DinghaoXi/chinese-sentiment-datasets）：这个GitHub仓库把NLPCC 2013/2014的数据整理转存了。但记住——转存版不保证和官方完全一致，你需要自己核对。

四、国内平台：访问稳，但得注册

有些老板可能说“我访问国外网站慢，有没有国内就能用的？”有。

百度飞桨 AI Studio：搜“ChnSentiCorp”（https://aistudio.baidu.com/datasetdetail/158737）或“SMP2020-EWECT”（https://aistudio.baidu.com/projectdetail/3803173），国内网络直接访问，但要注册登录才能下载。
阿里云天池（https://tianchi.aliyun.com/dataset/88766）：四个领域（笔记本、汽车、相机、手机）的二分类中文评论，登录下载。

五、找不到对口的？先查这几个导航站

有时候你会发现自己要的数据特别冷门，或者明明知道有但就是找不到下载入口。这时候别瞎撞，去这几个导航站先对一下口径：

ChineseNLP（滴滴维护）（https://chinesenlp.xyz/docs/sentiment_analysis.html）：情感分析篇，把主流数据集列得一清二楚，包括任务定义、类别、数据说明。先看这个，再决定去哪找。
Papers with Code · ChnSentiCorp（已关停·作历史参考）：该站已于 2025 年 7 月被 Meta 关停、域名跳转 Hugging Face；想看模型榜单和论文配套数据，改用 Hugging Face Papers、GitHub。
Kaggle：搜“weibo sentiment analysis”或“Chinese sentiment”，有些数据在国际镜像上有备份（https://www.kaggle.com/datasets/zhuflower/weibo-sentiment-analysis/code），但也要登录下载。

六、最大的坑：同一个名字，不是同一份数据

我见过太多人兴冲冲下了一份“ChnSentiCorp”，结果发现条数对不上、标注方式也不一样。有些只有1000多条，有些是7000多，有些是12000的切分版。还有的标注是“好评/差评”，有的是“4类情绪”，有的是6类、7类细粒度。

用之前一定核对清楚：把来源、版本号、标注体系逐一确认。别拿错了数据还不自知。如果不放心，最简单的办法是从上面的“SophonPlus/ChineseNlpCorpus”和Hugging Face的官方页面重新下一份，别用网盘里别人不知从哪找来的“下载地址”。

七、这些数据太散、太乱，不想自己一个个扒？

说实话，绝大多数人真正卡住的，不是“有没有数据”这个终极问题，而是“数据散在七八个平台，版本口径对不上，评测集要申请，原站已经下线了”。光是核实“这个数据集到底能不能下、标注是什么、能不能商用”，就能花掉你大半天时间。

如果你想一步到位，可以让我们帮你做一次数据可得性深度检索。我们做的就是把你需要的任务（比如：两分类好评差评、多类情绪、属性级细粒度）拿来，跟GitHub、Hugging Face、百度飞桨、阿里天池、CCF官方评测站这些一手来源逐一比对，最后给你一张清晰的表：哪些我能直接下、哪些要注册、哪些要走申请、哪些原站已挂了只能找镜像。而且每份数据我们都会诚实地告诉你“标注体系是什么、版本是哪版、能不能商用”，不糊弄、不打包票说“肯定能下”。拿不到的，我们也不会硬说“应该有”，而是老老实实告诉你拿不到，并给替代路径。

数聚天成 DeepSData 干的就是这件事——不是给你一套数据，而是帮你在散落的角落里找到最靠谱的那几份，并让你的选择不再靠猜。

说明：本文为公开资料整理，仅供参考；平台政策、价格、下载方式与链接随时可能变化，本文不保证持续更新，请以各官方页面最新信息为准。

中文情感分析语料库下载：ChnSentiCorp、weibo_senti_100k

一、新手首选：一个大仓库打包了多份

二、想直接上手训练模型？Hugging Face 上有现成的切分版

三、想用学术权威的？这些评测集质量好，但多半要申请

四、国内平台：访问稳，但得注册

五、找不到对口的？先查这几个导航站

六、最大的坑：同一个名字，不是同一份数据

七、这些数据太散、太乱，不想自己一个个扒？

参考来源

同领域 · 自然语言处理

中文文本分类数据集下载与来源：THUCNews、CLUE、ChineseNlpCorpus

中文医疗问答数据集下载与许可：华佗26M、cMedQA2

想知道这些数据到底能不能拿、能不能用？