arXiv · 训练

面向运行时变化的流水线并行训练就绪驱动运行时

这篇论文提出一种就绪驱动的运行时系统,用于应对流水线并行训练中计算与通信的动态变化。传统方法依赖静态或预生成调度,难以适应运行时波动。新系统通过实时感知各阶段就绪状态,动态调整执行顺序,减少空闲等待,提升训练吞吐。实验表明,在异构集群和负载波动场景下,该方法能有效缓解流水线气泡,为大规模模型训练提供更鲁棒的调度方案。

域名
arxiv.org
评分
4 · 重要更新
发布
2026-05-18
面向运行时变化的流水线并行训练就绪驱动运行时

导读

这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。

原文摘要

Pipeline parallelism is a key technique for scaling large-model training, but modern workloads exhibit runtime variability in computation and communication. Existing pipeline systems typically consume static, profiled, or adaptively generated schedules as pre-committed execution orders. When realiz…