Meta AI · 训练

Meta AI 发布 CCMatrix,十亿级双语平行语料数据集

Meta AI 发布 CCMatrix,一个十亿级别的双语平行语料数据集,专为训练机器翻译模型而设计。该数据集从大规模收集并清洗了网络上的平行文本,覆盖多种语言对,旨在提升翻译模型的泛化能力和数据多样性。CCMatrix 的发布将显著降低翻译领域对人工标注数据的依赖,推动低资源语言翻译技术的发展。

域名
ai.meta.com
评分
4 · 重要更新
收录
2026-05-19

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。