为啥?因为这个领域中文数据算是AI方向里最成熟的那批之一了。GitHub、百度飞桨、阿里天池、Hugging Face……随便一搜就是一堆“中文情感语料库”、“评论数据集”。但问题恰恰出在这里——同一个名字,出现在四个不同的地方,版本不一样、标注方式不一样、条数不一样,甚至连能不能商用都没写清楚。你拿到的到底是哪个版本?标注的是“好评/差评”还是“开心/愤怒/悲伤”?这些东西搞混了,模型训练出来就是废的。

所以别再跑来问我“有没有数据”,先问问自己:你要的是哪类情感?两分类还是多分类?要做研究还是想商用?想清楚再动手。下面我把真实能找到、能下得动的一手来源筛出来,按“最省事的”到“最权威但麻烦的”给你捋一遍。


一、新手首选:一个大仓库打包了多份

如果你现在就想练手、先搞点数据跑起来,最省事的办法是去GitHub找一个叫 SophonPlus/ChineseNlpCorpus 的仓库(https://github.com/SophonPlus/ChineseNlpCorpus)。这哥们儿把好几份中文情感语料整理到一起了,全是CSV格式(Excel就能打开),直接clone就能下。里面最常用、质量也比较稳的有这几份:

  • ChnSentiCorp(酒店评论):差不多7000多条,好评差评二分类,这是中文情感分析的“行业基准线”,很多人拿它当入门起步。
  • weibo_senti_100k(新浪微博):10万多条,正向和负向各一半,比例均衡,很适合做两分类训练。具体的下载入口页在这里:https://github.com/SophonPlus/ChineseNlpCorpus/blob/master/datasets/weibo_senti_100k/intro.ipynb
  • simplifyweibo_4_moods(微博,四种情绪):36万多条,标的是“喜、怒、恶、乐”四类。如果你需要做多分类,这个体量够你用了。
  • waimai_10k(外卖评论):1万条左右,负面偏多(约8000负、4000正),适合想看看差评集中在哪些问题的场景。
  • online_shopping_10_cats(电商评论):10个品类共6万多条,两分类,正负各半。
  • dmsc_v2(豆瓣电影)、yf_dianping(餐饮)、yf_amazon:这三份都是“打分+评论”,可以直接拿评分当弱标注,比如5星就算正、1星就算负。体量很大(200万到700万条),但数据质量一般,要自己做清洗。

⚠️ 特别提醒:这些数据绝大多数是研究者从微博、豆瓣、电商抓的,严格说版权属于平台,它们只适合做学术研究和学习。仓库里很多没有附正式的LICENSE文件,所以你如果想拿这些数据去做商业应用,最好自己掂量一下合规风险。


二、想直接上手训练模型?Hugging Face 上有现成的切分版

如果你已经会写点代码,想直接加载数据开始训练,Hugging Face 上有些版本帮你切好了“训练、验证、测试”三份,一行 load_dataset 就能用,省得你自己去拆。

  • lansinuote/ChnSentiCorp(https://huggingface.co/datasets/lansinuote/ChnSentiCorp):约12000条,训练/验证/测试切好了。注意这个条数跟GitHub上的7000多条不一样——所以我才说“同一个名字不是同一份数据”,拿之前一定看清楚。
  • seamew/ChnSentiCorp(https://huggingface.co/datasets/seamew/ChnSentiCorp):另一个常用版本,格式是arrow的,也切好了。同样要核对版本。
  • t1annnnn/Chinese_sentimentAnalyze(https://huggingface.co/datasets/t1annnnn/Chinese_sentimentAnalyze):把微博和购物评论合并了,约18.3万条,训练/验证/测试都有,适合做大一点规模的两分类训练。

三、想用学术权威的?这些评测集质量好,但多半要申请

如果你追求高精度、研究级、或者想跟论文做对比,那得走官方评测集的路子。这些数据质量最高、标注更细,但通常要官方申请、甚至当年报名比赛才能拿,不是点一下就能下。

  • SMP2020-EWECT(微博情绪分类)(https://smp2020ewect.github.io/):6类情绪标注(积极/愤怒/悲伤/恐惧/惊奇/无情绪),有通用版和疫情版。需要走官方使用条款。
  • NLPCC 2014 / 2013(中文微博情感分析)(http://tcci.ccf.org.cn/conference/2014/pages/page04_sam.html,http://tcci.ccf.org.cn/conference/2013/pages/page04_sam.html):7类细粒度情绪,XML格式。样例可以下载,但完整数据集偏学术用途,拿不到也别急,可以用下面那个转存仓库。
  • DinghaoXi/chinese-sentiment-datasets(https://github.com/DinghaoXi/chinese-sentiment-datasets):这个GitHub仓库把NLPCC 2013/2014的数据整理转存了。但记住——转存版不保证和官方完全一致,你需要自己核对。

四、国内平台:访问稳,但得注册

有些老板可能说“我访问国外网站慢,有没有国内就能用的?”有。

  • 百度飞桨 AI Studio:搜“ChnSentiCorp”(https://aistudio.baidu.com/datasetdetail/158737)或“SMP2020-EWECT”(https://aistudio.baidu.com/projectdetail/3803173),国内网络直接访问,但要注册登录才能下载。
  • 阿里云天池(https://tianchi.aliyun.com/dataset/88766):四个领域(笔记本、汽车、相机、手机)的二分类中文评论,登录下载。

五、找不到对口的?先查这几个导航站

有时候你会发现自己要的数据特别冷门,或者明明知道有但就是找不到下载入口。这时候别瞎撞,去这几个导航站先对一下口径:

  • ChineseNLP(滴滴维护)(https://chinesenlp.xyz/docs/sentiment_analysis.html):情感分析篇,把主流数据集列得一清二楚,包括任务定义、类别、数据说明。先看这个,再决定去哪找。
  • Papers with Code · ChnSentiCorp(已关停·作历史参考):该站已于 2025 年 7 月被 Meta 关停、域名跳转 Hugging Face;想看模型榜单和论文配套数据,改用 Hugging Face Papers、GitHub。
  • Kaggle:搜“weibo sentiment analysis”或“Chinese sentiment”,有些数据在国际镜像上有备份(https://www.kaggle.com/datasets/zhuflower/weibo-sentiment-analysis/code),但也要登录下载。

六、最大的坑:同一个名字,不是同一份数据

我见过太多人兴冲冲下了一份“ChnSentiCorp”,结果发现条数对不上、标注方式也不一样。有些只有1000多条,有些是7000多,有些是12000的切分版。还有的标注是“好评/差评”,有的是“4类情绪”,有的是6类、7类细粒度。

用之前一定核对清楚:把来源、版本号、标注体系逐一确认。别拿错了数据还不自知。如果不放心,最简单的办法是从上面的“SophonPlus/ChineseNlpCorpus”和Hugging Face的官方页面重新下一份,别用网盘里别人不知从哪找来的“下载地址”。


七、这些数据太散、太乱,不想自己一个个扒?

说实话,绝大多数人真正卡住的,不是“有没有数据”这个终极问题,而是“数据散在七八个平台,版本口径对不上,评测集要申请,原站已经下线了”。光是核实“这个数据集到底能不能下、标注是什么、能不能商用”,就能花掉你大半天时间。

如果你想一步到位,可以让我们帮你做一次数据可得性深度检索。我们做的就是把你需要的任务(比如:两分类好评差评、多类情绪、属性级细粒度)拿来,跟GitHub、Hugging Face、百度飞桨、阿里天池、CCF官方评测站这些一手来源逐一比对,最后给你一张清晰的表:哪些我能直接下、哪些要注册、哪些要走申请、哪些原站已挂了只能找镜像。而且每份数据我们都会诚实地告诉你“标注体系是什么、版本是哪版、能不能商用”,不糊弄、不打包票说“肯定能下”。拿不到的,我们也不会硬说“应该有”,而是老老实实告诉你拿不到,并给替代路径。

数聚天成 DeepSData 干的就是这件事——不是给你一套数据,而是帮你在散落的角落里找到最靠谱的那几份,并让你的选择不再靠猜。

说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。