数据集库 · 机器学习与语料

Common Crawl 网页语料 Common Crawl

覆盖全球公开网页、按月持续更新的 PB 级标准化 Web 归档语料,是大模型预训练与大规模文本研究的基础语料源。

← 返回数据集库

机器学习与语料开放 · 见条款

关键信息

机构Common Crawl Foundation
覆盖全球公开网页(逾 3000 亿页)
时间2008 起,月度更新
规模单月约 21 亿页 / PB 级累计
许可Common Crawl Terms
获取免费免注册(AWS S3/HTTPS/HF)
数据格式WARC

主要变量 / 测量指标

网页正文元数据超链接关系

内容与字段

格式含义
WARC原始 HTTP 请求/响应(含 HTML)
WAT提取的元数据(链接、标题等 JSON)
WET仅抽取的纯文本正文

另含 URL 索引(CDXJ/列式)、超链接图谱。主要字段:URL、抓取时间戳、HTTP 状态、MIME 类型、内容与纯文本。

适用研究

大规模语料研究、自然语言处理与大模型预训练。

版本CC-MAIN-2026-21 · 格式WARC/WAT/WET(gzip)+ 列式索引

网页内容版权归原站;用户需自行做合规清洗与过滤,遵守来源许可与中国法律法规;元数据 2026-06 核验。

关键词

网页语料大模型预训练WARC自然语言处理Common Crawl

获取与许可

许可:开放 · 见条款 | 免费获取 | 格式:WARC

自行获取的难点

自行从全网抓取、去重、对齐格式并维护跨月份版本口径,往往耗费大量算力与工程时间且难以复现。我们已梳理好格式、字段与索引脉络,直接取用可研究的语料。

相关数据集

同领域 · 机器学习与语料

机器学习与语料CC0

OpenAlex 学术图谱 OpenAlex

完全开放的全球学术元数据库,收录数亿篇论文及其作者、机构、期刊、引用与主题关联,CC0 免费,是文献计量与科研知识图谱的开放替代。…

这个数据集,要我们帮你取数与整理?

告诉我们研究必须满足的条件,先做可得性评估,再真实检索与整理;确实拿不到会直接说明,不绕弯子。

帮我取数