机器学习与语料开放 · 见条款
关键信息
主要变量 / 测量指标
内容与字段
| 格式 | 含义 |
|---|---|
| WARC | 原始 HTTP 请求/响应(含 HTML) |
| WAT | 提取的元数据(链接、标题等 JSON) |
| WET | 仅抽取的纯文本正文 |
另含 URL 索引(CDXJ/列式)、超链接图谱。主要字段:URL、抓取时间戳、HTTP 状态、MIME 类型、内容与纯文本。
适用研究
大规模语料研究、自然语言处理与大模型预训练。
版本CC-MAIN-2026-21 · 格式WARC/WAT/WET(gzip)+ 列式索引
网页内容版权归原站;用户需自行做合规清洗与过滤,遵守来源许可与中国法律法规;元数据 2026-06 核验。
关键词
自行获取的难点
自行从全网抓取、去重、对齐格式并维护跨月份版本口径,往往耗费大量算力与工程时间且难以复现。我们已梳理好格式、字段与索引脉络,直接取用可研究的语料。
