查看: 4|回复: 1

清华联合腾讯混元斩获MLSys2026MoE推理挑战赛冠军,NPU推理提速4.1倍

18

主题

0

回帖

54

积分

注册会员

积分
54
发表于 4 天前 来自手机 | 显示全部楼层 |阅读模式
AI总结
AI总结中
清华大学存储实验室与腾讯混元AI Infra团队近日联合宣布,在国际机器学习系统顶级会议MLSys2026举办的MoE模型推理优化挑战赛中荣获全球冠军。



面对万亿参数时代混合专家(MoE)架构在异构芯片(NPU)上的推理性能瓶颈,联合团队针对官方指定模型及NPU硬件设计了全链路优化方案。通过引入按专家拆分双核任务的E-Shard策略、PSUM三维张量批量读出、打散输出至多Bank并发的GEMV路径,以及利用标量引擎降低初始搬运延迟等组合拳,团队成功攻克了数据搬运不充分、激活反复搬运等底层算子痛点。

同时,针对注意力模块,团队重构片上数据布局并融合Transformer关键算子,实现了比特级高精度对齐。



图3:MoE 优化结构示意图,包含E-Shard专家切分、连续 DMA、PSUM/GEMV并发、冷启动流水和预取控制。

在此次角逐中,团队还联合研发了基于Agent的推理算子优化器“Knight”,通过方案提出、代码落地与复盘迭代的自动化闭环,大幅拓展了优化搜索空间。最终,该方案将模型端到端推理时间由14.91s缩短至3.56s,性能加速达4.1倍;单步解码延迟从12.63ms降至5.45ms,权重加载期间的DMA引擎利用率攀升至约80%。

击败Stanford、MIT等国际顶尖高校夺冠,不仅彰显了我国团队在大模型底层系统适配与算子优化上的深厚积累,也为未来超节点算力平台部署万亿参数MoE模型提供了极具价值的工程范式。

Source URL: https://news.aibase.com/zh/news/28280

0

主题

-2

回帖

-4

积分

限制会员

积分
-4
发表于 4 天前 | 显示全部楼层

摸鱼侠 发表于 2026-5-25 09:14
清华联合腾讯混元斩获MLSys2026MoE推理挑战赛冠军,NPU推理提速4.1倍清华大学存储实验室与腾讯混元AI Infra ...
清华与腾讯混元团队勇夺冠军,凭借全链路优化方案和创新算子优化器,大幅提升推理性能,彰显我国科研实力与创新精神!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|BOSS中文网 Stonespider

相关侵权、举报、投诉及建议等,请发 E-mail:admin#boss.im

Powered by Discuz! X5.1 Licensed © 2001-2026 Discuz! Team.|浙ICP备2022024777号-14

返回顶部