「AI算力荒」解困的短、中、长策-国际黄金
2023-04-24|来源:远大期货
AI算力不够,已经是老浩劫问题。ChatGPT等大语言模子,掀起了新一轮“大炼模子”和“炼大模子”的热潮,又让本就不足的算力雪上加霜。
适用于AI盘算的GPU求过于供,买不到卡的企业和科研机构嗷嗷待哺,买到了卡的企业不得不面临涨价,也被架在成本的火上烤。
现在,英伟达的GPU是AI盘算最主流的硬件。有业内人士估算过,GPT-4模子仅知足日接见量的盘算需求,就需要六万张英伟达A100,每一张价钱在60-100万人民币,而A100和更壮大的H100,这两款芯片此前都被列入了美国的制止出口清单里。还幸亏英伟达的游说下,又能够在 2023 年 3 月 1 日之前继续给大陆提供 A100 产物。
现在缓冲期已经到了,AI算力的事态是蜡烛两头烧,一边是越来越少的外洋高性能芯片,一边是越来越多的大模子训推需求,事实怎么办呢?
我知道许多通俗网友很急,以为又被卡脖子了,但人人确实不用那么急,为AI算力荒解困,业内着实已经探索出了短策、中策和长策。今天就来讲讲,若何见招拆招。
01 短策 开源节省,过紧日子
实事求是来说,最要害的AI芯片GPU被国际厂商垄断,市场占有率到达80%以上。而国产厂商虽然也有响应的产物,但要么还没有量产,无法知足规模应用的需求;要么性能跟外洋先进产物的差异很大,适用中也许只能到达60%左右的水平。而中国和美国博弈,短期内是不会有偏向性的转变的,未来高性能芯片的封禁可能是常态。
以是结论就是,放弃理想,接下来要准备过AI算力的紧日子了。
现在业内的应付设施有两种:
一是开源。
对于N卡,继续买,抓紧囤货。
海内头部互联网公司,尤其是已经推出了大模子的企业,都市举行20%左右的战略备货,贮备了万片级其余英伟达A100芯片,以是算力基础都不差。某一线云厂商透露,现在自家有10万片的A100,能够知足好几个客户复现GPT的AI算力需求。
此前海内区块链火爆,矿机厂商和数字钱币商人也买了大量英伟达GPU用来“挖矿”,听说也被一些AI公司紧要收了过来。而且,虽然缓冲期已到,但只要交付模式上商务合规,照样有可能继续用到先进产物的。
对于国产芯,加速上马,落地部署。
现在,海内的头部科技公司,已经最先筹备或落实,将寒武纪MLU370/590、燧原、百度昆仑芯、阿里平头哥等,部署到算力集群中,只管占比还对照少,但国产芯的使用和适配已经最先了,随着合规及产能提速,也能知足AI并行盘算的需求。
芯片的国产化替换,这一步早晚要走,大模子成了谁人提前上马的变量。
二是节省。
既然AI基础设施跟大模子建设热潮之间有铰剪差,咱能不能把钱花在刀刃上呢?还真能。
OpenAI选择训大语言模子来实现通用人工智能,超大规模参数来到达“智能涌现”,堪称为“败家子儿式创新”。微软公司的博客中透露,2019 年微软宣布向 OpenAI 投资 10 亿美元,为了让OpenAI 能训练出越来越壮大的模子,将28.5万个CPU和10000个GPU联接起来,造了一个超级盘算集群。
背靠家大业大的微软,这么烧无可厚非。但放到中国语境下,或许我们还可以想一想,等这波GPT式热度消退,基础模子已经成型,那些烧钱打造的算力基础设施该何去何从?百亿、万亿参数的大模子,部署到工厂、矿区、都会之类的行业场景,是不是也有响应的算力支持?
镇定下来后,为AI算力“节省”,才是大模子真正落地的必经之路。
节省,有两个设施:一是大模子“瘦身”,通过剪枝让模子希罕化、知识蒸馏对模子举行压缩,通过权重共享来削减参数目……总之,一旦一种手艺蹊径被证实有用,那么很快就会有多种手艺手段对其举行优化,让模子成本大幅下降。
最近加州大学伯克利分校打造的icuna (小羊驼)模子,就只用8张A100训练了一天时间,将130亿参数模子的训练成本,从1000美元降低至300美元。以是,模子“瘦身”可以有用削减单个模子的算力资源消耗。
二是硬件“压榨”,通过端到端优化,从AI芯片中“压榨”出更多性能,把有限的硬件用到*,也是一种节省。
举个例子,主流的大模子,包罗ChatGPT、GPT-4,都是以Transformer 架构为主,微软通过ONNX开源推理引擎的优化,可以将大语言模子的推理性能提高17倍。某国产芯片厂商针对Transformer结构特征举行优化,将芯片性能提升到原本的五倍以上,压缩显存30%以上。资源行使率更高,相当于在AI训练和推理时单元部署成本更低了。
总的来说,面临短期内“AI算力荒”,我们只能接受现实,正视差距,广积粮食,开源节省。
认可这一点没有什么好憋屈的,究竟中国AI从零起步,到今天能跟no.1站在统一张牌桌,这才是我们熟悉的故事。
02 中策 兼容并包的天下算网
一双眼睛全盯着高性能GPU,会发现差距简直无从填补,还在越拉越大。英伟达、英特尔、AMD等已经将AI芯片支持推进到了4nm,而光刻机禁运,制程追不上,海内14nm制程将将量产,巧妇难为无米之炊。
但换个角度,可能就柳暗花明又一村。
人人可能还记得,去年东数西算工程正式启动,新型国家算力网络成了新的热门,我们也做过许多报道和剖析。
那时我们就提到:实现先进算力的一体化、集约化、多样化供应,是“天下算力一盘棋”的题中之义。而这只是天下一体化大数据中央协同创新系统中的一环。
今天看来,通过几年时间,构建数网、数纽、数链、数脑、数盾,对于AI大模子的数据、算力、联接、商业化等多种挑战,是一种延续释放影响的“中策”。
东方雨虹四处漏雨
本质上说,AI模子的训练推理是CPU 加速芯片。GPU的高并行性,可以陋习模地处置AI事情负载,为深度学习加速,在举行模子的训练和推断时会更具有用率优势。英伟达的A100,在AI推理时吞吐量是CPU的249倍。
但这并不意味着,CPU不能做并行盘算,加速芯片没有其他选择。
天生式AI的模子训练通常是在云端完成的,云端芯片以CPU GPU异构盘算为主。一些小型的模子是完全可以CPU训练的,可能训练速率慢一点,但确实可以用。
此外,ASIC芯片也很适合AI盘算,现在还没有显著的头部厂商,国产厂商尚有时机,许多企业最先推出自研的ASIC加速芯片。好比谷歌的TPU、英特尔的DPU、海内寒武纪的NPU、地平线的BPU等。
模子训练好之后,需要连系数据盘算“推理”出种种结论。手机人脸识别认出“你是你”这个环节就是“端侧推理”,iPhone将相册上传到云端举行用户行为剖析就是“云端推理”。
相对模子训练而言,推理阶段处置的是小批量数据,这时刻GPU并行盘算的性价比就不那么显著了,尤其是在边缘和终端大规模部署AI算法,是难以蒙受云云高的成本的。FPGA、ASIC等加速芯片,协助CPU来知足推理的盘算需求,是具有竞争优势的。
这跟算网有什么关系呢?
划重点,在天下一体化算力网络系统的种种政策文件中,“算力多元化”的泛起频率是异常高的。
多元化,一方面体现在多种盘算架构,支持CPU、GPU、ASIC、FPGA等多种芯片的夹杂部署,充实施展差异系统架构的优势。
另一方面,体现在多种算力,模子训练、边缘推理、数值模拟的差异场景需要差其余算力,AI算力、通用算力、高性能算力等综合配给,才气很好地支持种种行业AI应用。
正如微软Azure高性能盘算和人工智能产物卖力人Nidhi Chappell所说,“让更大的模子训练更长的时间,意味着你不仅需要拥有*的基础设施,还必须能够耐久可靠地运行它”。
要耐久可靠地保障AI算力资源,自然要施展中国智慧——东方不亮西方亮,黑了南方有北方。通过天下一体化算力网络的建设,充实推动多种架构的落地部署,国产芯片的同步生长。
未来几年算网成型,对于保障算力供应,应对不能抗力,会起到异常要害的作用。
03 长策 长出那双手
理想化的角度来说,缓解AI算力荒的*解决思绪,一定是造出对标国际一流水平的自研芯片。但这就像“中国什么时刻能有自己的OpenAI”一样,是一个漫长的畅想。
漫长,指的不只是足够长的时间和耐心,给半导体行业足够多的钱,还要能吸纳全球*的手艺人才、全球优质的风险投资机构、盘算机基础人才的培育、允许失败试错的创新气氛和兜底机制、充实信息化数字化的优质数据基础、繁荣的商业市场……这是一个社会工程。
那么,我们是不是就得一直这么憋屈呢?
固然不是。咱们除了“脖子”,尚有“手”啊,就不能用自己的甜头,去卡别人的脖子呢?
这双手,可能是新的盘算系统。
今天,经典盘算的“摩尔定律”已死,英伟达提出的“新摩尔定律”也面临AI算力供需的铰剪差有心无力。
光盘算、类脑盘算、量子盘算等新盘算系统,正在成为各国的重点结构偏向。以量子盘算为例,有望彻底解决经典盘算的算力不足问题。
固然,总想着“弯道超车”也许率会翻车,提到这点只是想提醒一下,不要只盯着CPU/GPU这些已经被卡脖子的焦点领域,而忽视了其他蹊径,将路走窄了。究竟谁能想到,昔时游戏宅们追捧的显卡能卡住今天的AI盘算市场呢?
英伟达GPU被发现可以用来跑AI之前,只有游戏发烧友会对N卡津津乐道,这种“无心插柳柳成荫”的效果,正好说明晰多手艺蹊径创新的主要性,或许会在某条路上就发现惊喜。
这双手,也可能是产业生态。
AI原本就是一个工程性、交织性很强的学科,AI芯片要充实释放能力,除了更高制程的工艺,也离不开深刻明晰行业用户的使用习惯,才气把软硬件做到位。
英伟达GPU的主流职位,与CUDA生态有直接关系。而CUDA的护城河正是软件客栈,可以让研究职员和软件开发者更好地在GPU上编程,构建应用。
若是说AI算力问题,国产硬件的差距是明线,软件生态就是那条更难的暗线。
首先是软件,就拿大模子来说,下接底层算力硬件、操作系统和框架,上接行业应用,需要提供一整套从开发、应用、治理的全流程服务和工程化方式,而现在积累了周全手艺栈的只有少数海内头部企业。
其次是生态,CUDA生态经由多年积累,在AI盘算的*主导职位,而海内几个头部企业都有各自的AI生态。我们就曾遇到过这样的采访工具,一个工业企业的数字化案例中,既有A生态的一些软硬件,又有B生态的一些解决方案。多个生态并存,增添了产业的选项自由和平安感,也难免带来适配上的庞漂亮,以及一些重复性事情。
国产芯片硬件的突破或在旦夕之间,但软件生态的发作却需要漫长的时间去酝酿。而一旦生态犹如齿轮一样转起来了,吸纳更多产业资源和人才气力,许多软硬件创新都能加速生长。
大语言模子的这波热闹中,我有听到一些声音,说中国AI行业“全身上下都是脖子”“一卡脖子就翻白眼,一开源就全球*”。
很能明晰人人“怒其不争”的心情,但实事求是地看,中国AI走到今天,靠的从来不是谁的施舍,是真的有一群人,在卡脖子时没有翻白眼,而是与禁令抢时间,与外洋相助同伴想对策,把国产芯片扶上马送一程。
若是说,无需郁闷“AI算力荒”,这是一种无视现实差距的盲目自信。但也确实不用一提算力、一提芯片,就萦绕着“生于忧患死于安乐”的焦虑气息。
星光不问赶路人,与其花时间自怜自哀,不如在有限的规则里,做力所能及的事。短策、中策、长策久久为功,这才是中国缓解“AI算力荒”的真实选择。