科技中国

AI
业界 手机 电脑 数码 智车 AI 苹果 直播
当前位置: 首页 > AI > 正文

摩尔线程正式开源 MT-MegatronLM 和 MT-TransformerEngine 两大AI框架

2025-03-18 16:31:39 来源:IT之家 A+A-

3 月 17 日消息,摩尔线程官方今日发文宣布,已正式开源 MT-MegatronLM 与 MT-TransformerEngine 两大 AI 框架。这两大框架通过深度融合 FP8 混合训练策略和高性能算子库,在国产全功能 GPU 上实现混合并行训练和推理,提升了训练效率与稳定性。

据介绍,MT-MegatronLM 是面向全功能 GPU 的开源混合并行训练框架,支持 dense 模型、多模态模型及 MoE(混合专家)模型的高效训练;MT-TransformerEngine 主要用于 Transformer 模型的训练与推理优化,通过算子融合、并行加速策略等技术,释放摩尔线程全功能 GPU 高密度计算的潜力和 memory bound 算子效率。两大框架的技术突破体现在硬件适配与算法创新的深度协同:

  • 混合并行训练:支持 Dense、多模态及 MoE 模型的混合并行训练,可灵活应对不同模型架构的复杂运算场景;

  • FP8 混合训练策略:结合摩尔线程 GPU 原生支持的 FP8 混合精度训练策略,能够有效提升训练效率;

  • 高性能算子库:通过高性能算子库 muDNN 与通信库 MCCL 的深度集成,系统性优化了计算密集型任务与多卡协同的通信开销;同时结合摩尔线程开源 Simumax 库,可自动进行并行策略搜索,并针对不同模型和加速环境 spec 最大化并行训练性能;

  • 异常训练处理:框架内置的 rewind 异常恢复机制,可自动回滚至最近稳定节点继续训练,大幅提升大规模训练的稳定性;

  • 完整的兼容性:两个框架兼容 GPU 主流生态,既保障了现有生态的平滑迁移,也为开发者构建自有的 AI 技术栈提供了底层支撑。

实际应用效果如下:

  • 高效训练:在全功能 GPU 集群上,Llama3 8B 模型的训练任务,可以利用 FP8 在 loss 几乎无损的情况下 MFU 达到 90% 以上;(如下图所示)

▲ 利用摩尔线程 FP8 混合精度加速技术在 loss 无损的情况下得到 28% 的加速
  • 复现 DeepSeek 满血版训练:摩尔线程已深度集成并开源对 DeepSeek 并行算法 DualPipe 的高效支持,MT-DualPipe 可以完整接入 MT-Megatron 框架和 MT-TransformerEngine 框架,成功实现 DeepSeek V3 训练流程的完整复现,支持 MLA、MTP 及多种专家平衡策略;

  • 性能大幅优化:通过多种 Transformer 算子融合技术,显著提升了内存带宽利用率,有效缓解 memory bound 瓶颈,进一步释放国产 GPU 的硬件潜力。

摩尔线程官方表示将持续优化 MT-MegatronLM 与 MT-TransformerEngine 框架,并引入系列功能,具体如下:

  • Dual Pipe / ZeroBubble 并行策略:进一步降低气泡率,提升并行训练效率;

  • 多种 FP8 优化策略:独创的 FP8 优化策略,提高训练的性能和稳定性;

  • 异步 checkpoint 策略:提高训练过程中的容错能力和效率;

  • 优化后的重计算策略:减少计算和显存开销,提高训练速度;

  • 容错训练策略:独创的容错训练算法,增强训练过程中的容错能力;

  • 集成摩尔线程 FlashMLA 和 DeepGemm 库:进一步释放摩尔线程 GPU 的算力和 FP8 计算能力,提升计算性能和效率。

附开源地址如下:

  • MT-MegatronLM 开源地址:https://github.com/MooreThreads/MT-MegatronLM

  • MT-TransformerEngine 开源地址:https://github.com/MooreThreads/MT-TransformerEngine

  • 摩尔线程 Simumax 开源地址:https://github.com/MooreThreads/SimuMax

(责任编辑:Diy92)

推荐阅读 相关文章

告别跑酷!波士顿动力 Atlas 机器人,正式进厂「搬砖」

波士顿动力公司刚刚发布了 Atlas 机器人的新视频,这位曾经以跑酷和空翻闻名的「网红」,如今竟然走进了工厂,开...[详细]

2025-03-08 21:21:09

腾讯混元发布并开源图生视频模型:可生成 5 秒短视频,还能自动配上背景音效

3 月 6 日消息,从腾讯混元微信公众号获悉,腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩...[详细]

2025-03-08 21:21:09

告别“生肉”指日可待:亚马逊 Prime Video 为影视节目引入 AI 辅助配音

3 月 6 日消息,亚马逊旗下流媒体平台 Prime Video 当地时间周三宣布,开始尝试在部分授权影视作品中引入 AI 辅...[详细]

2025-03-08 21:21:09

“通用 AI 智能体”Manus 合伙人张涛:从未开设任何付费获取邀请码的渠道

3 月 6 日消息,在推出通用 Al Agent"Manus"引发科技行业关注后,Manus AI 合伙人张涛今日表示,短期内会专注 bui...[详细]

2025-03-08 21:21:09

DeepSeek 们上终端,未来手机、PC、汽车体验如何?

今年以来,国产 AI 大模型 DeepSeek 以创新的算法和架构、难以想象的低成本和出色的能效,以及广泛的应用场景等...[详细]

2025-03-08 21:21:09

比亚迪腾势N9旗舰SUV即将上市;华为余承东称鸿蒙有望成全球前三大电脑操作系统...

“科技昨夜今晨”时间,大家好,现在是 2025 年 3 月 22 日星期六,今天的重要科技资讯...[详细]

2025-03-22 08:36:59

《哪吒之魔童闹海》IP 授权费从500万元涨至900万元,跨界合作达20余个品牌

3 月 22 日消息,据央视网报道,国产动画电影《哪吒之魔童闹海》票房跻身全球电影票房...[详细]

2025-03-22 08:36:59

美国实施30年的网络平台内容免责条款2027年即将废除,X、Facebook、TikTok 等科技巨头即将面临新挑战

3 月 22 日消息,科技媒体 AppleInsider 昨日(3 月 21 日)发布博文,在实施近 30 年、政...[详细]

2025-03-22 08:36:59

苹果续订《人生切割术》第3季,库克正式放出先导预告

3 月 22 日消息,苹果公司昨日(3 月 21 日)发布博文,宣布续订《人生切割术》第三季。该...[详细]

2025-03-22 08:36:59

苹果第一款电脑Apple-1掀起拍卖浪潮,成交价达37.5万美元

3 月 22 日消息,科技媒体 MacRumors 昨日(3 月 21 日)发布博文,报道称一台罕见的、可...[详细]

2025-03-22 08:36:59

联系方式