arXiv · 训练
面向运行时变化的流水线并行训练就绪驱动运行时
这篇论文提出一种就绪驱动的运行时系统,用于应对流水线并行训练中计算与通信的动态变化。传统方法依赖静态或预生成调度,难以适应运行时波动。新系统通过实时感知各阶段就绪状态,动态调整执行顺序,减少空闲等待,提升训练吞吐。实验表明,在异构集群和负载波动场景下,该方法能有效缓解流水线气泡,为大规模模型训练提供更鲁棒的调度方案。
- 域名
arxiv.org- 评分
- 4 · 重要更新
- 发布
- 2026-05-18
导读
这条暂时没有深度导读,点上方「访问项目本体」直接到源页面查看。
原文摘要
Pipeline parallelism is a key technique for scaling large-model training, but modern workloads exhibit runtime variability in computation and communication. Existing pipeline systems typically consume static, profiled, or adaptively generated schedules as pre-committed execution orders. When realiz…
