腾讯开源混元文生图大模型 <br/>系首个中文原生类sora架构开源模型

发稿时间： 2024-05-14 15:09 来源：人民邮电报作者：赵乐瑄 2024-05-14

分享X

5月14日，腾讯宣布混元文生图大模型全面升级并对外开源。记者获悉，这也是首个中文原生的类 sora 架构开源模型，填补了国产大模型在文生图先进架构上的空白。

据介绍，腾讯混元文生图大模型由腾讯从“零”开始训练，从模型算法、机器学习框架到人工智能基础设施全链路自研的“实用级大模型”。

人工智能是发展新质生产力的重要引擎，而大模型又是人工智能技术的重要发展方向。其中，文生图是大模型应用的重点领域，有着广泛的应用前景。

目前，主流的文生图开源生态基本围绕英文建设，像 Stable Diffusion 等主流开源模型，虽然在一定程度上支持中文输入，但其核心数据集仍以英文为主，对中国的语言、美食、文化、习俗都理解不够，更容易因翻译而产生语义分歧乃至生成错误。建设自主可控且中文原生的大模型以及相应的开源生态迫在眉睫。

腾讯表示，混元文生图大模型以中文原生为基础，支持中英文双语输入及理解，较好理解中文语境，对中国的古诗词、俚语、美食、文化、习俗等都有更好的生成效果。

此外，升级后的混元文生图模型采用了基于Transformer的扩散模型架构（简称“DiT”），具备更强的可扩展性，在参数量越多的情况下，性能越强。有利于提升视觉模型生成效果及效率。这也是此前爆红的文生视频产品Sora 背后的关键技术。

腾讯文生图负责人芦清林表示：“腾讯混元文生图的研发思路就是实用，坚持从实践中来，到实践中去。此次把最新一代模型完整开源出来，是希望与行业共享腾讯在文生图领域的实践经验和研究成果，共建中文文生图开源生态，加速大模型行业发展。”

目前，腾讯混元文生图模型参数量达 15 亿。评测数据显示，最新的腾讯混元文生图模型效果相比前代提升超过 20%，远超开源的Stable Diffusion模型，在目前已开源的文生图模型中，综合性能最佳，达到国际领先水平。

新闻附件：