大模型激战半年,腾讯字节缓不济急
2023-08-15|来源:远大期货
国产通用大模型的混战远未完毕。在半年左右的蛰伏期往后,大部分玩家都浮出了水面。
在这之中,有人加快迭代。8月8日,由搜狗查找创始人王小川创建的百川智能发布了旗下第三款大模型产品 Baichuan-53B,背面练习参数高达530亿。此刻间隔王小川宣告进军大模型战场不过4个月的时刻,这家创业公司发展神速。
这还仅仅一个开端,百川智能方面向年代财经泄漏,后续还会有多款产品发布,包含规划更大、参数超千亿的大模型。
也有人暗淡离场。由美团联合创始人王慧文创建,招引源码本钱、五源本钱等闻名VC安排,以及美团创始人王兴、快手创始人宿华等互联网大佬出资的光年之外,曾一度被商场以为是国内大模型战场上最强有力的玩家之一。
可是,跟着6月下旬王慧文因健康问题离岗退出,无法继续掌握光年之外,这家备受等待的大模型创业公司只能卖身美团,一众出资人也随之退股。
还有人另辟蹊径。AI大牛周明创建的澜舟科技,着重轻量化模型,期望用更低的本钱处理B端场景问题。而曾协助谷歌将BERT模型的练习时刻从3天降到76分钟的新加坡国立大学校长青年教授尤洋,则建立了潞晨科技,试图用低本钱练习大模型的处理方案包围。
比较之下,大厂自研的大模型则缓不济急。直到8月初,腾讯自研的混元大模型和字节打造的AI对话类产品Grace才先后传出内测音讯,详细问世时刻仍未可知。
相同停留在测验阶段的,还有李开复创建的AI 2.0企业“零一万物”。在7月3日举行的对外沟通会上,李开复泄漏,该公司在三个月内已完成百亿参数规划的模型内测,现在正向300亿—700亿参数规划扩展。不过,该产品至今仍未向商场敞开。
这些仍未发布的大模型产品将为科技职业带来什么样的改动,值得商场等待。从这个视点来看,这场混战或许还要继续好久。
01 进击的王小川
由王小川创建的百川智能,正以其惊人的产品发布速度招引商场的重视。
在其4月宣告下场做大模型后,仅用了两个月零五天的时刻,就在6月15日发布70亿参数开源大模型Baichuan-7B。不到一个月时刻,又发布了130亿参数开源大模型Baichuan-13B。
8月8日发布的Baichuan-53B,现已是这家大模型创业公司半年内发布的第三款产品,百川智能发展神速。
百川智能相关负责人回复年代财经表明,公司在创建之前就现已花了许多时刻做前期预备,开端就把道路和办法想得比较清楚。
其指出,做大模型都会考虑三个层面:数据、算法和算力。抛开算力不说,做查找的公司天然有优异的数据才能,百川智能的中心团队此前现已做了20年的数据抓取、抽取、清洗、去重、反垃圾等操作,可以更快拿到高质量数据集。
而算法是以自然言语处理为中心,将算法工程进行迭代,不是单一的工程问题,而是在文本数据驱动下,算法和工程一起运转。此前在查找范畴堆集的阅历在这里也能很好地发挥作用,使用数据点评推进模型前进。
“有了之前多年的技能和阅历堆集,百川智能做大模型产品的速度才会又快又好。”
不过,在发布会上,王小川亦指出,当下国产通用大模型仍处在一个分型复刻的阶段。各家厂商根本都在对标OpenAI,不可避免地会呈现同质化的问题。
正因如此,在他看来,与美国闭源大模型的头部格式已定的状况不同,“我国谁的大模型*”现在并没有定论。在这场混战之中,钱是重要的,但终究决议的力气仍是人和团队、安排才能。大厂钱多、人多、算力多,但安排功率一般不一定够好,创业公司的安排功率或许好,也或许欠好。
“我们都在争夺时机,并且不一定落在大厂里。”
王小川还在采访中谈及离场的王慧文。其指出,王慧文是国内几个干流做大模型里*一个没有强势技能布景的,对他的应战比其他家要大。工作中要做许多的技能决议方案,招什么人、走什么技能道路图、需求多少核算资源,一定会面对十分多的决议方案压力。
“不是做大模型压力大,是没有技能布景做决议方案压力会大许多。可是技能满足的话,其实挺愉悦的。”
02 腾讯、字节缓不济急
大模型混战敞开之初,互联网大厂由于坐拥更多算力、人才、资金和数据,被以为是强壮的竞赛对手。
百度自研的文心一言早在本年3月底就已首先落地;阿里打造通义千问紧随其后,在4月11日举行的阿里云峰会上揭晓。就在阿里发布通义千问的前一天,王小川才刚刚宣告下场,建立百川智能。
比较之下,同为一线大厂的腾讯跟字节,推出通用大模型的步骤要慢许多。
8月3日,据36kr报导,腾讯自研的 “腾讯混元大模型”现已进入使用内测阶段。三天后,8月6日,字节旗下的AI对话类产品Grace也被爆出历经两个月的研制后,总算进入测验阶段。
此刻间隔百度发布文心一言现已曩昔4个月。关于腾讯通用大模型产品步骤稍慢的原因,马化腾曾揭露表明,“腾讯也相同在静心研制,可是并不急于早早做完,把半成品拿出来展现。”
不过,“并不着急”的腾讯,仍是在本年6月中旬首先发布了“职业大模型”的道路,一口气抛出10大职业超越50个处理方案。无独有偶,字节跳动也相同在6月发布大模型服务渠道“火山方舟”,经过集成多家AI科技公司及科研院所的大模型,向企业供给全方位的渠道服务。
商场曾一度以为,职业大模型将成为这两家大厂包围的办法。
但现实或许并非如此。当下被宣扬的职业大模型一直存在着被代替的危险。科大讯飞总裁吴晓如曾向年代财经指出,10年前,在语音辨认技能上,也曾诞生过许多聚集在通话、行车、工作等不同场景的专用模型,但跟着通用模型技能的老练,专用模型也随之离场。
“我以为大模型也会阅历相同的阶段。”
比较之下,从更久远视点看,通用大模型才真实代表着一个渠道级或颠覆性的大时机。正是因而,腾讯和字节都不或许听任自己错失,哪怕进度缓慢,但它们必定要坚持在场。
有腾讯内部人士向年代财经指出,腾讯的方案一直是两条腿走路,通用和职业齐头并进。仅仅与一些急进的厂商比较,旗下产品包括交际、游戏、广告、内容创造等多个范畴的腾讯,要更为慎重一些。
03 学院派创业者另辟蹊径
在大模型战场上,来自高校、研讨安排的学院派创业公司组成了竞赛的第三极。
它们既不是王小川、王慧文这样的种子选手,在创业之初就能凭仗人脉招引到数亿美元的出资,并以此敏捷起步。也不像腾讯、阿里、百度这样的大厂,在算力、人才、资金等各个方面都占有难以逾越的优势。
但凭仗着他们关于人工智能技能的深度了解,这些创业者仍然能在夹攻之下,另辟蹊径找到新的发展方向。
比方由原微软亚洲研讨院副院长周明创建的澜舟科技,不同于市面上一众追逐千亿甚至万亿参数的大模型产品,这位从1980年就开端研讨NLP(自然言语处理)的华人AI大牛期望以更轻量级模型处理B端场景的问题。
其推出的孟子大模型曾以十亿参数,改写此前被百亿、千亿等级参数模型轮流霸榜的中文言语了解威望评测基准 CLUE 榜单。
这是一项务实的决议方案。出于数据安全考虑,绝大部分企业都不会将数据上传,而是会要求本地化布置,本钱因而被显着拉高。在承受媒体采访时,周明指出,哪怕仅仅本地布置推理,拿练习好的大模型来用,千亿参数大模型也需求8到16块 A100,换算下来至少是一两百万元的投入,“对许多场景来说,客户需求廉价和够用”。
由新加坡国立大学校长青年教授尤洋创建的潞晨科技,则期望使用算法技能下降大模型的调用本钱。
现如今,无论是大厂,仍是创业公司,都必须面对国产大模型同质化趋势益发显着的问题。假如这一问题不被处理,未来大模型极有或许堕入当下云服务厂商面对的低毛利窘境。
尤洋对年代财经表明,这是由于底层技能基座迭代本钱过于昂扬。他以GPT举例,OpenAI每一次的练习本钱高达6000万美元,每隔三四个月就需求练习一次,迭代一次则需求四五次练习。以此核算,每迭代一次技能基座或许需求2亿到3亿美元。
过于昂扬的本钱导致商场上的技能基座极端稀缺。根本上只要GPT、LLAMA,还有国内的GLM。各家厂商根本都是在仿照这几家大模型做产品,才导致了同质化的问题益发凸显。
长时间研讨高性能核算的尤洋因而建立了潞晨科技。该公司现在推出的开源体系Colossal-AI 可经过高效多维并行、异构内存等技能,显着下降AI大模型练习、微谐和推理的开发与使用本钱。
尤洋以为,只要随同大模型练习本钱快速下降,或许采纳更好的优化技能,使得参数控制在200亿左右,还仍然可以到达和千亿参数相同的作用时,才会真实迎来大模型百家争鸣的那一天。