机器学习与语料依子语料
关键信息
主要变量 / 测量指标
内容与字段
双语/多语逐句对齐文本(bitext):源语言句、目标语言句、语言对标识、子语料来源标识、句对齐信息(XCES stand-off);部分经处理含分词、词形还原与词性标注。
适用研究
机器翻译、跨语言模型与多语 NLP。
格式XML+对齐 / TMX / Moses 纯文本 · 工具OpusTools / API
许可依各子语料各异,使用前须逐子语料核对;元数据 2026-06 核验。
关键词
自行获取的难点
语料来源分散、版本与对齐口径各异、子语料格式与授权各不相同,逐一甄别整合往往耗时费力。我们已完成梳理与统一交付,按语言对即取即用。
