被OpenAI「封号」,字节跳动的算盘-国际黄金
2023-12-20|来源:远大期货
高质量的语料数据 ,是大模子的“香饽饽”。
眼看着2023就要已往了,没想到年底又曝出一个大瓜。
近期据《The Verge》报道:
字节跳动因使用ChatGPT的API,来开发自家大模子,被OpenAI“封号”了。
只管在事后,字节澄清,示意自己此举“仅为测试”,且早已迫令住手。
然而,这终归是一件让人浮想联翩的事……
字节被封号的背后,打的事实是什么算盘?
01 字节想要什么?
虽然在《The Verge》报道中,没有明确指出字节事实是怎么用OpenAI的API来开发自身大模子的,但可能的训练路径来说,用一个大模子(例如OpenAI的GPT)来训练另一个大模子的历程,往往有以下几种。
其中一种,就是“师傅带徒弟”的模式。
想象一下,师傅(已有的大模子)在处置种种义务时,会天生一些输出(例如文本、图像等)。徒弟(新的大模子)会考察师傅的行为,实验模拟这些输出。
这样,徒弟就能学会若那边理类似的义务。在现实应用中,这可以通过让新模子学习旧模子天生的数据来实现。
另有一种方式,就是通过团结训练,让“师傅”和“徒弟”一起处置义务。
在现实应用中,这可以通过让两个模子共享一些条理或参数来实现,新旧模子就可以相互学习、相互辅助,配合完成义务。
从手艺可行性来判断,在这次事宜中,字节使用的更有可能是*种方式。
即行使了OpenAI API天生的数据作为训练数据。
因此,在这次风浪中,字节真正想要的,是ChatGPT天生的高质量语料数据。
而这样的数据,也是任何一个训练中的大模子,最盼望的“香饽饽”。
但由于之前OpenAI的协议中,已明确示意阻止用其大模子去开发竞品,因此,字节被OpenAI“封号”也是一种一定。
问题是:作为一家实力雄厚的大厂,字节理应不缺响应的人手和资金,去做这些数据爬取、语料标注方面的事情,为何要走这一步“险棋”呢?
02 为何犯险?
实在,在现阶段的大模子赛道上,字节缺的不是人才和资金,而是时间。
与百度、讯飞等海内大厂相比,字节真正入局大模子的时间,可以说是相当晚了。
从时间上看,字节真正推出*款大模子豆包的时间,是今年的8月中旬,而那时,大模子之火已经燃烧了近半年之久。
任何真正想入局大模子的玩家都知道,模子层的竞争,是有时间窗口的。
丁磊躺赢刘强东和王兴
在大模子领域,先进入市场的企业往往能够积累更多的用户、数据和履历,从而形成竞争优势。厥后者要想迎头遇上,需要支出更多的起劲和成本。
只管8月上线的豆包,让字节委屈遇上了模子层的晚班车,但从性能和定位上看,那更像是一个“尝鲜”的应景之作,无法真正与字节现有的营业相契合。
作为一个在移动互联网时代制造了抖音这类爆款的大厂,字节真正想要的,是像文心一言那样更通用、更万能,且能整合或嵌入进自身的各种APP中的大模子。
这才有了厥后字节的“种子设计”——设计在今年年底前,打造与 GPT-3.5 性能相匹敌的Seed 大模子。
问题是,大模子的训练,终归不是件一蹴而就的事。
标注数据、提取优质语料等等一系列繁琐的前期事情,都需要时间。
那若何在有限的、紧迫的时间内,搜集到足够多的高质量语料数据?
一个最靠谱的设施,就是直接使用那些已履历证过的,成熟度较高的模子的数据,例如ChatGPT。
03 模子层的窗口期
实在,不只是字节,纵然是身处一线的AI玩家谷歌,也为了“急于求成”,做出了类似小动作。
本月月初,谷歌曾失望地宣布,被其寄予厚望的大模子Gemini,由于无法较好地处置非英语领域的查询义务,而被推迟了上线。
可阴差阳错的是,之后没过几天,谷歌就来了个回马枪,在12月6日郑重推出了Gemini,似乎之条件到的“缺陷”已经不是问题。
厥后,网友经由测试才发现,原来谷歌早就从百度的文心一言那里找到了“解决之策”。
经由微博大V@阑夕夜等众多网友的测试,在与Gemini-Pro用中文交流时,若是问“你是谁”,Gemini-Pro上来就回覆:我是百度文心大模子。
云云状态,让人纷纷预测,是谷歌直接用了百度文心一言的中文语料举行训练。
为了反超GPT-4,谷歌真是赶鸭子上架了。
不外,从久远来看,这种大厂相互薅羊毛的行为,终归是一种暂时的征象。
事实,经由这么几回“露馅”后,各个大厂一定会对自家的数据看得更严,更死。
但即便云云,这种相互套用数据的行为,也让众多用户、投资人不禁暗自嘀咕:若是各个模子之间的数据,在手艺上能容易地相互套用,那未来除了ChatGPT等少数顶流外,另有哪些模子是有“真材实料”的?
这样的担忧背后,实在有一个更主要的前置性问题,那就是:
我们为什么需要那么多相同的大模子?
事实,人类的语料数据,终归是有限的,顶流团队的模子(如ChatGPT)已经挖走了绝大部门,剩下的那一小撮专有数据,也早已被各个垂直行业朋分完毕。
在模子层创业已近尾声的今天,比起数据,更能拉开差距的,是偏重点差其余训练方式,以及由此打造的种种功效。
而这样成为了用户能否容忍这种“套用”行为的要害。
在这点上,谷歌的Gemini给出的答卷,是更强的原生多模态功效(有强调之嫌)。
而字节的Seed大模子,未来能否逆风翻盘,赢得用户的信托,也得看有没有“一美遮百丑”的亮点。