机器学习与语料以官方为准
关键信息
内容与字段
数据集包含知乎用户个人主页信息,字段包括用户性别、所在地、个性签名等。
适用研究
可用于社交媒体用户画像、用户行为分析、自然语言处理等研究。
本卡由元数据起草,字段与许可以官方为准(待人工核验)。
关键词
自行获取的难点
获取大规模社交媒体用户数据时,常面临爬取成本高、数据合规性不确定等问题。
该数据集包含从知乎平台爬取的十万余条用户个人主页数据,涵盖性别、所在地、个性签名等属性。
全球计算机视觉研究的奠基性基准,逾千万张人工标注图像、两万余类目,自 2009 年起被学界与产业引为通用评测标尺。…
规模最大的开放多语平行语料集合,逾千种语言、上千组语言对,是机器翻译与多语 NLP 的基础库。…
覆盖全球公开网页、按月持续更新的 PB 级标准化 Web 归档语料,是大模型预训练与大规模文本研究的基础语料源。…
完全开放的全球学术元数据库,收录数亿篇论文及其作者、机构、期刊、引用与主题关联,CC0 免费,是文献计量与科研知识图谱的开放替代。…