数据集库 · 机器学习与语料

10W+知乎用户数据集 10W+ Zhihu User Dataset

该数据集包含从知乎平台爬取的十万余条用户个人主页数据，涵盖性别、所在地、个性签名等属性。

机器学习与语料以官方为准

机构北大开放数据

覆盖以官方为准

时间以官方为准

规模10万+条

许可以官方为准

获取北大开放数据

数据集包含知乎用户个人主页信息，字段包括用户性别、所在地、个性签名等。

可用于社交媒体用户画像、用户行为分析、自然语言处理等研究。

本卡由元数据起草，字段与许可以官方为准（待人工核验）。

知乎用户数据社交媒体爬虫用户画像

许可：以官方为准｜免费获取

获取大规模社交媒体用户数据时，常面临爬取成本高、数据合规性不确定等问题。

同领域 · 机器学习与语料

机器学习与语料非商业研究

全球计算机视觉研究的奠基性基准，逾千万张人工标注图像、两万余类目，自 2009 年起被学界与产业引为通用评测标尺。…

机器学习与语料依子语料

规模最大的开放多语平行语料集合，逾千种语言、上千组语言对，是机器翻译与多语 NLP 的基础库。…

机器学习与语料开放 · 见条款

覆盖全球公开网页、按月持续更新的 PB 级标准化 Web 归档语料，是大模型预训练与大规模文本研究的基础语料源。…

机器学习与语料CC0

完全开放的全球学术元数据库，收录数亿篇论文及其作者、机构、期刊、引用与主题关联，CC0 免费，是文献计量与科研知识图谱的开放替代。…

告诉我们研究必须满足的条件，先做可得性评估，再真实检索与整理；确实拿不到会直接说明，不绕弯子。

新用户注册送 3 次检索（价值 30 元），结果附来源可核对。