数据集库 · 机器学习与语料

OPUS 开放平行语料库 OPUS · Open Parallel Corpus

规模最大的开放多语平行语料集合，逾千种语言、上千组语言对，是机器翻译与多语 NLP 的基础库。

机器学习与语料依子语料

机构赫尔辛基大学 Helsinki-NLP

覆盖约 1005 语言 · 1214 语料

规模约 1029 亿句对

时间各子语料滚动更新

许可依各子语料

获取免费免注册

句对齐双语文本语言对标识

双语/多语逐句对齐文本（bitext）：源语言句、目标语言句、语言对标识、子语料来源标识、句对齐信息（XCES stand-off）；部分经处理含分词、词形还原与词性标注。

机器翻译、跨语言模型与多语 NLP。

格式XML+对齐 / TMX / Moses 纯文本 · 工具OpusTools / API

许可依各子语料各异，使用前须逐子语料核对；元数据 2026-06 核验。

平行语料机器翻译多语NLP句对齐parallel corpus

许可：依子语料｜免费获取

语料来源分散、版本与对齐口径各异、子语料格式与授权各不相同，逐一甄别整合往往耗时费力。我们已完成梳理与统一交付，按语言对即取即用。

同领域 · 机器学习与语料

机器学习与语料非商业研究

全球计算机视觉研究的奠基性基准，逾千万张人工标注图像、两万余类目，自 2009 年起被学界与产业引为通用评测标尺。…

机器学习与语料开放 · 见条款

覆盖全球公开网页、按月持续更新的 PB 级标准化 Web 归档语料，是大模型预训练与大规模文本研究的基础语料源。…

机器学习与语料CC0

完全开放的全球学术元数据库，收录数亿篇论文及其作者、机构、期刊、引用与主题关联，CC0 免费，是文献计量与科研知识图谱的开放替代。…

告诉我们研究必须满足的条件，先做可得性评估，再真实检索与整理；确实拿不到会直接说明，不绕弯子。