您的位置: 首页 > 实时讯息 >

摩尔线程开源MT-MegatronLM、MT-TransformerEngine AI框架

0次浏览     发布时间:2025-03-17 18:28:00    

IT之家 3 月 17 日消息,摩尔线程官方今日发文宣布,已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU 上实现混合并行训练和推理,提升了训练效率与稳定性。

据介绍,MT-MegatronLM 是面向全功能 GPU 的开源混合并行训练框架,支持 dense 模型、多模态模型及 MoE(混合专家)模型的高效训练;MT-TransformerEngine 主要用于 Transformer 模型的训练与推理优化,通过算子融合、并行加速策略等技术,释放摩尔线程全功能 GPU 高密度计算的潜力和 memory bound 算子效率。两大框架的技术突破体现在硬件适配与算法创新的深度协同:

  • 混合并行训练:支持 Dense、多模态及 MoE 模型的混合并行训练,可灵活应对不同模型架构的复杂运算场景;

  • FP8 混合训练策略:结合摩尔线程 GPU 原生支持的 FP8 混合精度训练策略,能够有效提升训练效率;

  • 高性能算子库:通过高性能算子库 muDNN 与通信库 MCCL 的深度集成,系统性优化了计算密集型任务与多卡协同的通信开销;同时结合摩尔线程开源 Simumax 库,可自动进行并行策略搜索,并针对不同模型和加速环境 spec 最大化并行训练性能;

  • 异常训练处理:框架内置的 rewind 异常恢复机制,可自动回滚至最近稳定节点继续训练,大幅提升大规模训练的稳定性;

  • 完整的兼容性:两个框架兼容 GPU 主流生态,既保障了现有生态的平滑迁移,也为开发者构建自有的 AI 技术栈提供了底层支撑。

实际应用效果如下:

  • 高效训练:在全功能 GPU 集群上,Llama3 8B 模型的训练任务,可以利用 FP8 在 loss 几乎无损的情况下 MFU 达到 90% 以上;(如下图所示)

▲ 利用摩尔线程 FP8 混合精度加速技术在 loss 无损的情况下得到 28% 的加速
  • 复现 DeepSeek 满血版训练:摩尔线程已深度集成并开源对 DeepSeek 并行算法 DualPipe 的高效支持,MT-DualPipe 可以完整接入 MT-Megatron 框架和 MT-TransformerEngine 框架,成功实现 DeepSeek V3 训练流程的完整复现,支持 MLA、MTP 及多种专家平衡策略;

  • 性能大幅优化:通过多种 Transformer 算子融合技术,显著提升了内存带宽利用率,有效缓解 memory bound 瓶颈,进一步释放国产 GPU 的硬件潜力。

摩尔线程官方表示将持续优化 MT-MegatronLM 与 MT-TransformerEngine 框架,并引入系列功能,具体如下:

  • Dual Pipe / ZeroBubble 并行策略:进一步降低气泡率,提升并行训练效率;

  • 多种 FP8 优化策略:独创的 FP8 优化策略,提高训练的性能和稳定性;

  • 异步 checkpoint 策略:提高训练过程中的容错能力和效率;

  • 优化后的重计算策略:减少计算和显存开销,提高训练速度;

  • 容错训练策略:独创的容错训练算法,增强训练过程中的容错能力;

  • 集成摩尔线程 FlashMLA 和 DeepGemm 库:进一步释放摩尔线程 GPU 的算力和 FP8 计算能力,提升计算性能和效率。

IT之家附开源地址如下:

  • MT-MegatronLM 开源地址:
    https://github.com/MooreThreads/MT-MegatronLM

  • MT-TransformerEngine 开源地址:
    https://github.com/MooreThreads/MT-TransformerEngine

  • 摩尔线程 Simumax 开源地址:
    https://github.com/MooreThreads/SimuMax

相关文章

大修完工!泗阳三号船闸正式恢复通航

【来源:江苏省交通运输厅_交通要闻】3月31日,随着“洋海推002”轮缓缓驶入闸室,京杭运河泗阳三号船闸正式恢复通航。此次大修原计划工期40天,实际工期34天,较计划提前6天通过竣工验收,工程质量综合评定为优良。此次大修工程为泗阳三号船闸闸门新增设跳动量和门头错位自动检测装置,有效防止因闸门错位造成
2025-04-04 04:28:00

金融监管总局:推动保险资金加大对国家战略性新兴产业股权投资力度 精准高效服务新质生产力

每经AI快讯,4月3日,国家金融监督管理总局发布关于保险资金未上市企业重大股权投资有关事项的通知。《通知》要求保险机构加强对被投资企业的统筹管理,建立健全股权投资决策流程与授权管理机制,加强内部控制管理,压实保险机构主体责任。为实现制度平稳过渡,实行“新老划断”,新增股权投资按照《通知》执行。对于不
2025-04-03 16:57:00

马斯克:很快将辞去政府效率部职务是“假新闻”

美国企业家埃隆·马斯克2日在社交媒体上说,有关他很快将辞去美国政府效率部职务的报道是“假新闻”。美国白宫新闻秘书莱维特当天在社交媒体上转发有关马斯克辞职的报道时称:“这个‘独家新闻’是垃圾。”马斯克随后转发莱维特的帖文说:“是的,假新闻。”莱维特在帖文中转发的是美国《政治报》当天早些时候发布的报道。
2025-04-03 15:05:00

《新华每日电讯》关注青岛:人工智能赋能千行百业

新华每日电讯2025年4月3日5版新华社青岛4月1日电(记者 张武岳)在位于山东青岛崂山区人工智能产业园的自然语义(青岛)科技有限公司,工作人员向记者展示了最新研发的语言类大模型“欧拉”:在一台笔记本电脑上,未接入互联网的状态下,该大模型就可以进行与DeepSeek、ChatGPT等相似的“思考”过
2025-04-03 14:35:00

槐荫区:“楼宇槐小花”推动企业办事“不出楼”

为进一步优化“楼宇经济”服务效能,深化“宜商槐荫”政务服务品牌,4月1日,槐荫区行政审批服务局开展第二期“楼宇槐小花”业务培训会,聚焦两街道重点园区楼宇打造专业化的“楼宇槐小花”。推动楼宇服务从“线下跑”向“线上办”升级,让企业办事“足不出楼”即可享受高效服务。本期培训在首期5个试点楼宇基础上,将服
2025-04-03 10:44:00

OpenAI o3模型运行成本估算从3000美元涨至3万美元

IT之家 4 月 3 日消息,上周,负责维护和管理 ARC-AGI 的 Arc Prize Foundation 对 OpenAI 的 o3 “推理”人工智能模型在 ARC-AGI 基准测试中的成本估算进行了重大修订,现在看起来 o3 的运行成本没有那么低。去年 12 月 OpenAI 推出 o3
2025-04-03 07:59:00

网站内容来自网络,如有侵权请联系我们,立即删除!
站长邮箱 admin@99-bm.com Copyright © 99便民 鲁ICP备19046937号-5