国内大模型面临的主要挑战及发展建议

发稿时间: 2023-10-31 09:09 来源:通信企业管理 作者: 于明峰 2023-10-31
分享X

随着ChatGPT的横空出世,人工智能大模型成为各行各业热议的焦点,国内外各种大模型如雨后春笋般涌现,引发了新一轮人工智能热潮。但在看到大模型取得巨大进步的同时,也要看到当前国内大模型的研发推广仍然面临不小的挑战和压力。

挑战一:算力

当前流行的大模型均为预训练大模型,具有数十亿乃至上万亿个参数,训练时用到数万亿个Token,训练的过程就是海量数据处理的过程,消耗了巨大算力。据Open AI测算,2012年开始,全球大模型训练所用的计算量呈现指数级增长,平均每3.43个月便会翻一番,目前计算量已扩大了30多万倍,远远超过了算力增长速度。大模型对算力的需求主要体现在模型预训练、日常运营和模型调优等方面。据统计,训练ChatGPT所需的算力大约为3640PFlop/s-day(即如果每秒计算一千万亿次,需要计算3640天), 约等于64个英伟达A100 GPU训练1年的时间。另外,大模型在运行中需要不断调优,才能确保一直处于最佳应用状态,而调优的过程也将消耗大量算力。仍以ChatGPT 为例,其一个月微调所需的算力至少为1350PFlop/s-day。随着大模型的不断开发和应用,全球的算力消耗将呈现指数级增长。据中国信通院预测,2030年全球算力总规模将达到56ZFlops,2021年至2030年的复合增长率约为65%,其中智能算力成为拉动算力增长的主要动力。

基于大模型自身研发特点带来的算力消耗,一方面对全社会的信息基础设施建设带来巨大压力,需要不断提升算力规模,以满足大模型快速发展的需要;另一方面,对众多企业、科研机构的大模型研发带来巨大挑战,一般机构很难承受如此巨大的算力投入。另外,跟美国相比,我国在算力规模方面还存在比较大的差距。目前全球超大规模数据中心领域,占主导地位的企业仍然是亚马逊、谷歌、Meta、微软等企业,与之相比,阿里巴巴、华为、百度、腾讯、金山云等国内领先的超大规模数据中心企业还有一定差距。根据工信部的数据,2022年全球智能算力中,美国占45%的份额,中国占28%的份额,美国智能算力规模为我国的1.6倍,在中美算力竞争中,我国仍然处于相对劣势的一方。

挑战二:能耗

大模型对算力的巨大需求,带来了对能源的巨大消耗。人工智能服务器的功率较普通服务器高6至8倍,训练大模型所需的能耗是常规云工作的3倍。据估计,目前人工智能的能源消耗占全球能源消耗的3%左右,到2025 年,人工智能将消耗全球15%的电能。人工智能的快速发展将对能源消耗和环境产生巨大影响。根据测算,GPT-4训练一次的耗电量达90多万千瓦时,相当于1200个中国人一年的用电量,而这仅仅是前期训练大模型消耗的电能,仅占模型实际使用时所消耗电能的40%,实际运行阶段将消耗更多能源。据华尔街见闻报道,ChatGPT运行60多天时的碳排放超过814.61吨;谷歌人工智能训练每年耗电量达23亿千瓦时,相当于美国佐治亚州亚特兰大市所有家庭1年的用电量。如今全球范围内“群模大战”如火如荼,需要消耗大量的能源,产生巨大的碳排放,给全球环境治理带来挑战。我国大模型发展带来的高能耗,可能增加碳达峰、碳中和压力。

挑战三:数据

当前的大模型普遍具有数十亿个参数,有的大模型参数量甚至多达上万亿个,训练时常常用到数万亿甚至数十万亿的语料,需要收集海量的数据,在数据的收集、处理、使用等方面,大模型面临的挑战不容忽视。

一是数据获取的便利性。能否方便、快捷地获取数据,是决定大模型能否成功训练的关键,目前通用类大模型训练的数据大部分来自公开渠道,但专用类大模型需要专业数据,这些数据大都属于企业、研究机构等实体,增加了专用类大模型的训练难度。

二是数据来源的合法性。随着个人信息保护意识的提高,即便是通过公开渠道获取的数据,也存在合法使用的问题,如我国《个人信息保护法》等对个人信息保护提出了明确要求。近期国家互联网信息办公室等七部委联合颁布的《生成式人工智能服务管理暂行办法》对预训练大模型使用的数据作出明确规定,提出要“使用具有合法来源的数据和基础模型”“涉及个人信息的,应当取得个人同意”等。

三是数据质量的可靠性。大模型的预训练不仅需要的数据量大,而且对数据质量有很高的要求。当前,国外大模型和国内部分大模型会选用开源数据集进行训练,这些源于互联网的数据虽然数量巨大,但质量良莠不齐;从中提取符合预训练要求的高质量数据,在数据清洗方面面临着很大挑战,特别是其中高质量的中文数据样本更是少之又少,进一步增加了国内大模型预训练的难度。

四是数据使用的安全性。只有正确的数据在正确的模型上训练,才有可能产生正确的结果,而当前预训练的数据大都源于人类发展过程中积累的原始数据。一方面,在大模型预训练中,如何保证使用的数据不带偏见,使得训练结果不对个人和社会产生危害,确实存在很大的管控难度。另一方面,随着大模型的发展和运用,将产生很多人工智能制造的数据,这些数据本身的安全性得不到保证,如果用这些数据去训练大模型,将带来数据污染问题,最终的训练结果可能脱离预期,带来严重的数据安全问题。

挑战四:资金

大模型犹如一只“吞金巨兽”,其成本主要由模型开发成本、训练成本、算力成本、数据成本、运维成本等构成,仅训练成本便动辄高达数百万美元。以Facebook的大语音模型LLaMA为例,在多达1.4万亿的数据集上,使用2000多个英伟达A100 GPU,训练了21天,花费或高达1000万美元。根据华为公布的消息,开发和训练一次人工智能大模型的成本高达1200万美元。再以ChatGPT为例,GPT-4的模型参数多达1.76万亿,训练一次的成本高达6300万美元。面对如此高昂的成本,推出ChatGPT的Open AI去年亏损达5.4亿美元,也就不难理解了。虽然科技巨头在大模型上的投入并不具有代表性,但大模型的“烧钱”特性由此可见一斑,对普通企业和科研机构而言,资金成为一道难以逾越的“门槛”,国内能够承担如此巨大成本开支的企业和科研机构为数不多。另外,即便企业和研发机构有足够的资金,如果花费的巨资不能带来产出,在现有的问责机制下,“谁来负责”是很多国有企业和研发机构不得不考虑的一个现实问题,这也“劝退”了很多有志于大模型研发的企业和机构。大模型巨大的资金投入,更是将很多小型研究机构和中小型企业拒之门外,导致大模型研发都集中在头部企业和研发机构,加剧了不平等现象。另外,在大模型的投资方面,根据美国斯坦福大学2022年的报告,美国和中国位列全球投资总额的前两位,但美国的投资是中国的3倍,我们在资金投入方面还有较大差距。

挑战五:技术

大模型技术主要涉及软件和硬件两方面。从软件技术看,与欧美国家比,国内企业仍然存在差距。比如在底层架构设计方面,目前国内外大模型训练时均采用谷歌公司的Transformer模型,国内尚没有类似的底层架构,在大模型的预训练方面只能“在别人的地基上盖房子”;在大模型的迭代升级、更新换代方面,国内企业也普遍落后于欧美企业,竞争劣势明显。从硬件技术看,在人工智能GPU方面,美国占据绝对领先地位,我国起步晚、

自研能力不足,对美国进口依赖程度高,存在“卡脖子”风险。比如,当前大模型训练用的GPU,大部分由美国英伟达公司生产,目前性能比较好的是A100,国产GPU与其相比在性能上差距明显。从去年底开始,美国已禁止英伟达向中国企业销售A100,同时英伟达已开发出性能比A100强大数倍的H100,并将优先部署在自建服务器上。鉴于上述情况,我国只能基于存量A100进行大模型开发、训练,在大模型方面与美国的差距可能进一步扩大。

挑战六:人才

与大模型研发密切相关的是人才。国内大模型人才数量严重不足,与美国相比顶尖人才数量少,制约了大模型研发的快速发展。

一是人才数量不足。国内大模型研发面临严重的人才紧缺问题。2020年人社部发布的人工智能人才相关报告指出,我国人工智能人才缺口超过500万,国内供求比为1∶10,供需比例严重失衡。脉脉高聘数据显示,2023年1月至5月,各行各业人工智能方向的人才供需比均低于1,人工智能成为“最缺人”的行业。根据麦肯锡最近的预测,2030年中国人工智能人才缺口将超过400万。以上数据都说明国内人工智能领域人才缺乏,给行业发展带来挑战,而大模型的研发也不可避免会受到人才不足的影响。

二是人才质量不够高。国内顶尖算法人才与美国存在较大差距,数量严重不足。比如,人工智能全球最具影响力学者榜单(AI 2000)在全球范围内遴选过去十年人工智能学科最有影响力、最具活力的顶级学者,该榜单自2020年发布以来,美国学者的数量一直高居榜首,且远超其他国家。2022年美国学者共1146人次上榜,占比57.3%,中国学者数量第二,共232人次,为美国的五分之一,差距明显。

三是人才外流严重。国内头部高校的人工智能本科生毕业后去美国深造并最终留在国外的人数众多,造成国内顶尖人才的流失。美国科技公司逐渐形成共识:如果失去了海外特别是中国的人才资源,美国人工智能人才优势将不复存在。美国马可波罗智库一项针对全球顶尖人工智能人才的调查表明,中国是全球输出顶尖人工智能人才最多的国家,这些中国学生在本科毕业后,只有34%最终留在中国,而56%的学生去了美国攻读研究生,其中88%留在了美国,只有10%选择回国。顶尖人才的流失,进一步加大了国内大模型研发与美国的差距,给我国大模型研发带来严峻挑战。

挑战七:市场

市场是大模型发展的核心和关键。只有建立成功的商业模式,在市场上获得收入,弥补前期研发的巨大投入,大模型才能实现良性循环,不断实现发展和进步。从市场接受度看,大模型的发展获得了用户认可,一度产生了较高的市场热情,引起了投资界的高度关注,但近期有回冷迹象。ChatGPT正式发布后,创造了2个月用户过亿的奇迹,但今年6月以来,ChatGPT流量开始下滑,网站与移动客户端流量环比下跌9.7%,

用户在网站的使用时长下降8.5%,随着用户对ChatGPT新鲜感的消失,大模型在逐渐回归现实。虽然ChatGPT流量的变化尚不足以完全说明问题,但用户量是检验市场接受度的“试金石”,最终能否获得市场认可,是大模型面临的一大挑战。从商业运营看,大模型商业模式尚不清晰,目前难以弥补前期训练的高额投入,一直处于“烧钱”状态,资金实力不够强大的企业和研发机构将面对巨大的成本压力。

4066626_172655589102_2.jpg

对国内大模型发展的建议

面对上述挑战,建议国家从战略层面统筹考虑大模型研发运营等相关问题,充分发挥“集中力量办大事”的制度优势,强化顶层设计,加大统一规划,加大政策支持和资源投入力度,推动中国人工智能从“跟跑”迈向“领跑”。

一是提高算力规模。进一步完善信息基础设施,加快推进“东数西算”步伐,加大算力网络建设力度,为大模型研发运营提供足够算力,同时进一步提高网络速度,降低网络时延,为更多大模型走向应用创造条件。

二是加强数据管理。国家层面加强对数据的管控,明确行业标准,建立数据使用规则,确保大模型训练数据的质量。同时,针对行业数据,破除不同厂家之间数据互相不能查询的壁垒,确保大模型训练有充足、准确的专业数据。

三是建立大模型研发“国家队”。集中全国顶尖人才和优质资源,举全国之力进行攻坚突破,同时解决大模型研发中存在的“小而散”问题,减少无效或低效大模型开发对算力和能源的浪费。

四是加大资金投入。建立国家大模型基金,专门用于大模型的研发、训练等。

五是加大政策支持。面向大模型研发,制订更加优惠的税收政策。针对国有企业在大模型研发上投入的资金,允许以两倍规模计为企业净利润。

六是加大科技投入。解决核心技术“卡脖子”问题,特别是加大人工智能芯片研发制造力度。

七是加快人才队伍建设。加大人才培养和引进力度,在薪资、晋升、住房、子女升学等方面,为高科技人才提供更加宽松的环境。进一步放宽针对国有企业的工资总额管控,为国有企业吸引顶尖人才创造环境。

八是加快培育大模型市场。建立丰富繁荣的大模型生态圈,推动大模型良性发展。

作者单位:中国电信集团有限公司

新闻附件:

相关新闻