华为昇腾大EP方案,引领大模型时代算力变革

发稿时间: 2025-03-17 13:38 来源:人民邮电报 作者:华欣 2025-03-17
分享X

随着大模型技术的蓬勃发展,人工智能领域迎来了新的变革浪潮。以DeepSeek为代表的创新力量,为行业带来了全新的思路和方向。近日在此背景下,华为适时推出昇腾大 EP(Expert Parallelism,专家并行)推理方案,为大模型的落地应用提供了强大支撑,引发业界广泛关注。

大模型的发展如今呈现出“技术摸高+工程创新”两条清晰路径。头部企业不断探索技术边界,提升大模型能力,对算力的需求持续攀升;而DeepSeek则独辟蹊径,通过工程创新和深开源,降低了模型部署门槛,推动大模型走向普及。这一变革不仅激发了千行百业的应用创新,还带来了新一轮的“百模千态”。在企业端,DeepSeek让众多行业客户看到了大模型与自身业务结合的潜力,从金融到制造,从教育到医疗,各行业纷纷开启大模型应用探索之旅;在个人用户端,DeepSeek用户量7天过亿,增长速度远超ChatGPT,完成了全民普及,进一步牵引着企业端大模型的推广。

在这样的产业趋势下,大模型技术也在不断演进。从架构上看,正从少量大专家向大量小专家模式转变。如同医院里从少数全科大夫转变为各科室众多专科专家,大量小专家模式使模型更加普及,计算成本降低,性能提升。同时,大规模跨节点专家并行(EP)成为提升模型性能的关键趋势。然而,这也带来了负载均衡和卡间通信等挑战。

华为昇腾大EP推理方案正是应对这些挑战的有力武器。该方案基于现有组网架构,通过交换机进行参数面互联和软件升级,就能从之前的一体机平滑过渡而来,实现了性能的大幅跃升。单卡性能提升到3倍,单卡显存占用降低,单卡并发提升到3倍,Decode时延降低50%以上,极大地降低了客户部署成本,提升了用户体验。

昇腾大EP 推理方案之所以能取得如此出色的性能,得益于多项关键技术。在MoE(混合专家)负载均衡方面,通过自动寻优、自动配比、自动预测、自动降解等技术,实现了备份节点和副本专家的灵活可扩展、高可用和极致均衡,确保了系统的稳定运行。PD分离(预填充Prefill和解码Decode分离)部署技术更是一大创新亮点,与传统同节点部署和业界静态分离方案不同,华为的autoPD 分离部署方案能自动感知负载变化,无需人工介入即可自动伸缩P、D 实例,结合多级缓存内存资源池化,将系统有效吞吐提升 50% 以上。

华为昇腾大EP推理方案不仅技术领先,还具备全面的优势。在方案层面,提供从预训练到微调到强化学习,再到推理集群、一体机的全流程全覆盖方案,并且是业界首个能够复现DeepSeek R1强化学习流程的方案;性能上,凭借自身硬件和软件的协同亲和,充分利用底层资源释放性能;生态方面,软件开源开放,兼容业界主流框架,为用户提供了丰富的选择和高效的自主训练、创新环境。

随着技术向 MoE模式发展,H20 芯片在高batch size(批量大小)场景下性能瓶颈凸显,时延大幅增加,难以适应快速更迭的技术需求。而华为昇腾大EP推理方案,与自主开源大模型DeepSeek并肩,成为突破困境、引领行业发展的关键力量。

编辑:徐勇

新闻附件:

新春走基层|我们一直在路上

特别推荐

相关新闻