数据集库 · 机器学习与语料

OPUS 开放平行语料库 OPUS · Open Parallel Corpus

规模最大的开放多语平行语料集合,逾千种语言、上千组语言对,是机器翻译与多语 NLP 的基础库。

← 返回数据集库

机器学习与语料依子语料

关键信息

机构赫尔辛基大学 Helsinki-NLP
覆盖约 1005 语言 · 1214 语料
规模约 1029 亿句对
时间各子语料滚动更新
许可依各子语料
获取免费免注册

主要变量 / 测量指标

句对齐双语文本语言对标识

内容与字段

双语/多语逐句对齐文本(bitext):源语言句、目标语言句、语言对标识、子语料来源标识、句对齐信息(XCES stand-off);部分经处理含分词、词形还原与词性标注。

适用研究

机器翻译、跨语言模型与多语 NLP。

格式XML+对齐 / TMX / Moses 纯文本 · 工具OpusTools / API

许可依各子语料各异,使用前须逐子语料核对;元数据 2026-06 核验。

关键词

平行语料机器翻译多语NLP句对齐parallel corpus

获取与许可

许可:依子语料 | 免费获取

自行获取的难点

语料来源分散、版本与对齐口径各异、子语料格式与授权各不相同,逐一甄别整合往往耗时费力。我们已完成梳理与统一交付,按语言对即取即用。

相关数据集

同领域 · 机器学习与语料

机器学习与语料CC0

OpenAlex 学术图谱 OpenAlex

完全开放的全球学术元数据库,收录数亿篇论文及其作者、机构、期刊、引用与主题关联,CC0 免费,是文献计量与科研知识图谱的开放替代。…

这个数据集,要我们帮你取数与整理?

告诉我们研究必须满足的条件,先做可得性评估,再真实检索与整理;确实拿不到会直接说明,不绕弯子。

帮我取数