天翼云息壤升级 简化大模型训推全流程

发稿时间: 2024-09-05 08:15 来源:人民邮电报 作者:记者 张佳丽 2024-09-05
分享X

9月4日,“天翼云息壤一体化智算服务平台——大模型训推一体化服务能力升级”线上发布,训推服务能力全面升级。

升级后,平台新增了开闭源大模型、多模态大模型供用户灵活选择,模型数量处于国内领先水平;上线专业的大模型数据集,用户可直接将数据用于大模型训练、推理任务中,实现了算法、算力、数据三要素的融合;新增体验中心,用户可直接在线互动体验;打造了全链路故障感知和恢复、全链路日志监控工具,突破断点续训等核心技术,使全链路监控训练更稳定。

据介绍,升级后的平台能够为万亿参数级别大模型训练提供一体化方案。天翼云在北京万卡池完成了Llama3-405B(4000亿参数)大模型的训练,700亿参数模型Llama2-70B在万卡规模下顺利拉起并完成训练,MFU达到43%,达到业界领先水平。天翼云优化断点续训,在Llama2-70B模型训练中实现秒级故障检测,分钟级定位并处理故障,分钟级训练恢复,这一性能已达到行业前沿水平。

此外,基于平台能力,天翼云联合伙伴上线了魔乐(Modelers)开发者社区,通过整合优质中文AI资源、提供极致易用的工具链,以及国产化算力使能,端到端支持AI应用开发全流程,助力孵化国产原生模型。平台支持公有云、混合云和轻量化三种交付形态。

在场景应用方面,平台主要面向两类客户场景。一是具备深厚行业知识、拥有自主数据的行业客户,如政务、金融机构、华体(中国)、媒体、旅游等行业。依托零代码平台和丰富的开闭源大模型,客户无须掌握算法编程即可完成模型的调优和API调用,从而加速大模型从概念到落地的进程。二是拥有很强的算法能力,但在智算集群的管理运维方面经验不足的大模型厂商。平台为这类客户提供专业的开发和运维工具,实现大规模分布式训练和断点续训能力,在保障稳定性的同时,通过构建AI加速引擎助力客户提升算力利用率。

目前,天翼云已服务多个客户的训推场景,助力行业大模型训推更便捷、更高效、更稳定安全。

新闻附件:

新春走基层|我们一直在路上

特别推荐

相关新闻