找研究数据,这几件事提前知道,少走我走过的弯路
先给你一句真话:数据大部分地方都有,但散得像碎了一地的拼图,每个来源的“进门条件”还都不一样。 有的注册就免费下,有的得靠机构订阅(像国泰安、CNKI这些高价库),有的像世界银行那样连商用都行,还不要钱。好不好找,最终看你要的是哪一类——下面我一个个说清楚,哪些好拿、哪些难搞,以及找不到时该怎么办。
国内官方数据:最该先翻,免费还靠谱
国家统计局·国家数据(data.stats.gov.cn)
官方给出的月度、季度、年度数据,人口普查、国际对比、统计年鉴全都有。网页上直接查,直接导出Excel,免费。部分功能得登录一下,但门槛几乎为零。配套总入口在stats.gov.cn/sj/,普查数据、年鉴都从那儿进。
我到现在还常去这地方翻,优点是权威、稳、不会突然消失。缺点是数据发布时间比新闻慢个把月,要时效性强的就别指望。
地理/遥感类:注册免费,但得会玩
地理空间数据云(gscloud.cn)
中科院的,注册登录后能免费下Landsat、Sentinel、MODIS、高程(DEM)这类遥感影像。新手第一次打开可能会懵——地图上全是网格,不知道怎么筛。秘诀是点“高级检索”,按你需要的区域、时间范围、云量大小去圈,不然一个区能下一大堆没用的图。我当初就因为没看教程,下了几十张全是云的片子,气得删了半天。
中科院资源环境科学与数据中心(resdc.cn)
专门做土地利用、气象、人口GDP栅格、行政区划这类专题数据。注册会员后每天能免费下1个(信息填完整后最多5个)。注意:部分数据可能还要单独申请,以页面为准。
机器学习/AI练手数据:注册就能用,很多免费
如果你是做模型训练的,这几个平台值得优先翻:
- 和鲸社区(heywhale.com/home/dataset)——国内的数据科学协作平台,有5000G+数据集,含一些科研机构的独家数据。注册就能用。但有个坑:放project路径的文件才能下,放input路径的只让看不让下,别白费时间。
- 阿里云天池(tianchi.aliyun.com/dataset/)——跨电商、医疗、工业等十多个行业,学习赛里的数据多数是公开免费的。但每个数据集的许可不一样,下载前先瞄一眼那个页面的说明,有些不能商用。
- 百度飞桨AI Studio(aistudio.baidu.com/datasetoverview)——上千个开放数据集,图像、文本、语音都有,还免费送GPU算力,注册即领。适合新手练手。
财经/经济数据库:高质量,但多数要机构订阅
这是最让人头疼的一类。数据好是好,但个人基本拿不到。
- CSMAR国泰安(gtarsc.com)——国内规模最大的财经数据库之一,股票、公司、基金、宏观经济全有。但主要是高校和科研机构订阅的,个人只能通过学校的图书馆进去。新网址常为data.csmar.com,以官方为准。我就碰过:为了查一家公司的财务数据,翻遍网上都没找到,最后找大学同学帮忙从校内网下的。
- CnOpenData(cnopendata.com)——有50多个专题库,像专利、上市公司、工商注册企业(数据量超大,3.5亿条)等等。部分免费、部分要购买或定制。如果你是中小企业想查某些行业数据,可以先看看免费的够不够用。
- CNKI中国经济社会大数据研究平台(data.cnki.net)——统计年鉴2589种,每周更新。大多数高校已订购,个人一般也得通过机构访问。没学校账号的话,基本没门。
国际经济/金融数据:权威、免费,部分还能商用
这波是良心数据源,别浪费。
- 世界银行开放数据(data.worldbank.org)——1400多个发展指标,GDP、贫困、健康、教育、气候、贸易全都有。全部是CC-BY 4.0许可,可以商用,只要按要求署名就行。提供CSV、Excel直接下,还有API。我写商业报告时经常用这儿的数据,稳得很。
- IMF数据(imf.org/en/data)——核心是《世界经济展望》(WEO),每年4月和10月发布,数据从1980年至今,还带未来5年预测。免费下电子表格,也有API。适合做宏观经济分析。
小提醒:有些国际站点在国内访问速度可能会慢,建议先打开看看能不能连上。
学术/医学数据:量大,但许可要逐个查
- Hugging Face Datasets(huggingface.co/datasets)——50万+公开数据集,覆盖NLP、图像、音频,一键加载。许可写在每个数据集的README里,必须逐个核对——有些是私有的,用错了就是侵权。
- Kaggle Datasets(kaggle.com/datasets)——竞赛和社区数据集,多数是CSV/JSON,直接下。许可差异极大,从完全公开到“只能教育用、不能商用”都有。用之前一定看License页,按要求引用。
- Zenodo(about.zenodo.org)——由欧洲核子研究中心运营,每条数据都给DOI编号,适合找论文配套数据。免费上传下载,单文件最大50GB。
- PhysioNet(physionet.org)——生理和临床数据,像著名的MIMIC数据集。但不是注册就能下:得先完成人类研究培训(CITI),再签数据使用协议,而且不能转手分享、不能上传到第三方AI接口。审批可能拖很久,要预留时间。
一个已经没了的来源,别再找
Papers with Code(paperswithcode.com)曾是机器学习SOTA排行榜+数据集+代码的聚合站,但2025年7月已经被Meta关闭了,域名现在跳转到Hugging Face论文页。网上有个什么paperswithcode2.com,那是非官方的接续站,别信它。以现状为准,别推荐给别人。
找不到怎么办?我走过的弯路告诉你
很多新手一上来就各种翻,翻到崩溃。我教你一套顺序:
- 先查官方源——统计局、世界银行、IMF,权威、稳定、免费。
- 再找学术仓库——Zenodo、Hugging Face,论文配套数据常在这儿。
- 然后看竞赛平台——天池、Kaggle、飞桨、和鲸,练手和近似数据多。
- 实在没有,再考虑定制——像CnOpenData提供定制服务,但前提是你预算够。
但说句实在话:很多时候找不到,不是因为你不努力,而是那条数据本来就没公开过。 我就是这样,花了两周去翻一个特定行业的统计,最后发现根本没人公开过。与其硬凑一个不对的数据,不如认认真真说清楚:这个方向目前没有公开来源,只能自己收集或者等以后开放。
用之前先看许可,别踩坑
- 同一个平台里,不同数据集的许可可能天差地别。 Kaggle上有的能随便用,有的只允许教育用途,商业用了就是违规。
- 世界银行的CC-BY 4.0可以商用,但必须署名。 很多数据集是“非商用”或“仅教育用”,商业项目用了,小心被找上门。
- 受限数据要守规矩。 像PhysioNet这种,签了协议就不能转手分享、不能上传到第三方AI接口,否则违规。
- 引用要规范。 用了别人的数据集,按它要求的方式正确引用,既是合规,也是学术诚信。
如果翻了一遍还是晕,或者不想一个个试
上面这堆来源,散在十几个网站,许可、门槛都不一样,挨个去翻确实累人。我就碰到过一个客户,想做某个行业的竞争分析,翻遍了国家统计局、天池、Kaggle,发现数据要么不齐、要么根本不对路。
这时候,数聚天成 DeepSData能帮你一把:我们可以按你具体的研究题目,把这些国内外来源一次扫一遍,老老实实告诉你——哪些能直接免费下、哪些要注册、哪些得靠机构订阅或付费定制、哪些要申请资质,以及找不到时还有什么替代路径。我们查的是广度和深度,把许可和门槛给你讲清楚;但不敢保证某一条具体数据一定能找到——毕竟找不到往往是数据本就不公开。要不要用、怎么用,决定权一直在你。
你省下翻来翻去的时间,安心搞研究,比啥都值。
本文仅作公开来源整理和可得性参考,不构成医疗、法律、投资、商业决策或合规意见;正式使用前请以官方页面、授权条款和专业意见为准。
说明:本文为公开资料整理,仅供参考;平台政策、价格、下载方式与链接随时可能变化,本文不保证持续更新,请以各官方页面最新信息为准。
参考来源
- https://www.heywhale.com/home/dataset
- https://tianchi.aliyun.com/dataset/
- https://aistudio.baidu.com/datasetoverview
- https://data.stats.gov.cn/
- https://www.stats.gov.cn/sj/
- https://www.gscloud.cn/
- https://www.resdc.cn/
- https://www.gtarsc.com/
- https://www.cnopendata.com/
- https://data.cnki.net/
- https://data.worldbank.org/
- https://data.worldbank.org/indicator
- https://www.imf.org/en/data
- https://www.imf.org/en/publications/sprolls/world-economic-outlook-databases
- https://huggingface.co/datasets
- https://www.kaggle.com/datasets
- https://about.zenodo.org/
- https://physionet.org/
- https://paperswithcode.com/
