数据集库 · 机器学习与语料

Common Crawl 网页语料 Common Crawl

Name: Common Crawl
Creator: Common Crawl Foundation

覆盖全球公开网页、按月持续更新的 PB 级标准化 Web 归档语料，是大模型预训练与大规模文本研究的基础语料源。

机器学习与语料开放 · 见条款

机构Common Crawl Foundation

覆盖全球公开网页（逾 3000 亿页）

时间2008 起，月度更新

规模单月约 21 亿页 / PB 级累计

许可Common Crawl Terms

获取免费免注册（AWS S3/HTTPS/HF）

数据格式WARC

网页正文元数据超链接关系

另含 URL 索引（CDXJ/列式）、超链接图谱。主要字段：URL、抓取时间戳、HTTP 状态、MIME 类型、内容与纯文本。

大规模语料研究、自然语言处理与大模型预训练。

版本CC-MAIN-2026-21 · 格式WARC/WAT/WET（gzip）+ 列式索引

网页内容版权归原站；用户需自行做合规清洗与过滤，遵守来源许可与中国法律法规；元数据 2026-06 核验。

网页语料大模型预训练WARC自然语言处理Common Crawl

许可：开放 · 见条款｜免费获取｜格式：WARC

自行从全网抓取、去重、对齐格式并维护跨月份版本口径，往往耗费大量算力与工程时间且难以复现。我们已梳理好格式、字段与索引脉络，直接取用可研究的语料。

同领域 · 机器学习与语料

机器学习与语料非商业研究

全球计算机视觉研究的奠基性基准，逾千万张人工标注图像、两万余类目，自 2009 年起被学界与产业引为通用评测标尺。…

机器学习与语料依子语料

规模最大的开放多语平行语料集合，逾千种语言、上千组语言对，是机器翻译与多语 NLP 的基础库。…

机器学习与语料CC0

完全开放的全球学术元数据库，收录数亿篇论文及其作者、机构、期刊、引用与主题关联，CC0 免费，是文献计量与科研知识图谱的开放替代。…

告诉我们研究必须满足的条件，先做可得性评估，再真实检索与整理；确实拿不到会直接说明，不绕弯子。