没人能复制 Chat-GPT

Chat-GPT 背后的明星企业 OpenAI,始于几个硅谷极客想要 “拯救人类” 的疯狂念头。

2014 年,特斯拉正在为产能问题焦头烂额,来中国求援的马斯克顺便做客央视《对话》栏目,遭到杨元庆灵魂拷问:2013 年联想一共卖出了 1.15 亿台设备,特斯拉卖了几辆车?

同一时期的美国,“AI 取代人类” 成为了硅谷 new money 的关键词,这让结过 3 次婚、生过 10 个孩子的马斯克深感不安。谷歌创始人拉里・佩奇就曾批评马斯克是一个 “物种主义者”,不愿用 “硅” 创造新物种。

2015 年夏天,马斯克找到了他的知音 —— 萨姆・阿尔特曼。

1.jpg

阿尔特曼与马斯克

这位名字也能翻译成 “奥特曼” 的帅哥,是创业孵化器 Y Combinator 的新任掌门,也是一个标准的科技狂,拥有两家核聚变企业和一家区块链公司。

2009 年,YC 创始人曾在博客上分享了过去 30 年最有趣的 5 位创始人,24 岁的阿尔特曼与乔布斯、谷歌创始人、赛普拉斯半导体 CEO 和 Gmail 之父并列。

在一次私人聚会上,两位明星企业家宣布掏出 10 亿美元,筹备一家非盈利导向的 AI 实验室 OpenAI,“让人类以更接近于安全的方式构建真正的 AI”。

在 Chat-GPT 横空出世之前,绝大多数人都不知道这家站在人类智商密度高地上的公司都做了些什么,到底花掉了多少钱。

这是一段用美元堆出来的理想主义故事。

信仰:AGI 神教

OpenAI 诞生的那场聚会上,马斯克几乎没有招到人。现场所有人都在追问一个问题:此时谷歌、Facebook、百度早已把世界上最顶尖的 AI 学者搜刮殆尽,你碰什么瓷呢?

这群野心家不肯死心,向蒙特利尔大学一位教授要来了一份 10 人挖角名单,上面写着圈内最有前途的年轻 AI 研究员。这其中最为重要的挖角对象,是一个名叫伊利亚・萨特斯基弗的俄罗斯人。

小萨是 AI 研究宗师杰夫・辛顿的学生。2012 年,辛顿带着 27 岁的小萨和另一个学生发明了一个 AI 模型,该模型识别图像的准确率高得吓人,在学术界引起了轰动,也直接奠定了小萨产业泰斗的历史地位。

这也让谷歌等企业迅速意识到:AI 终于有搞头了,直接把小萨挖走了。

OpenAI 给这 10 人挨个打电话,所有人都表示,除非别的人都答应才入伙。为了搞定小萨一行人,OpenAI 将他们骗去了当地的一个葡萄酒之乡,好生伺候了一天。最终,9 个人上了 “贼船”。

萨特斯基弗(左)与老师杰夫·辛顿(右)

萨特斯基弗(左)与老师杰夫・辛顿(右)

可就在马斯克与阿尔特曼准备召开新闻发布会时,小萨却反悔了。

为了留住小萨,谷歌先给小萨的薪资翻了一番,数字是 OpenAI 的两到三倍,但对方不为所动。随后,谷歌采取了另一条策略:加更多的钱。

此时的 OpenAI 急得像热锅上的蚂蚁,但考虑到自身囊中羞涩,只能天天发短信求小萨谈理想。直到阿尔特曼召开新闻发布会的那一天,小萨才决定加入 OpenAI,从谷歌的心腹变成了心腹大患。

小萨的决定其实出于一个有些难以启齿的 “理想”:他想实现 AGI(通用人工智能)。

所谓 AGI,即 “超级智能”,接近科幻电影中万能的人工智能;与之形成对比的是人脸识别、翻译、下围棋等只能完成单一任务的人工智能。

即便 2012 年,杰夫・辛顿和小萨的论文让 AGI 的可行性跨出了一大步,但以当代的科研基础,谈论 AGI,依旧就像谈论如何长生不老一样民科。

科学家 all in AGI,赌赢,可以在教科书里与比肩牛顿;赌输,成为美版知乎 Quaro 的民科代表。

但企业 all in AGI,大概只有一个结局 —— 成为先烈。庞大的资本支出,让无论是相信 “专家算法” 的 IBM,还是 “深度学习” 神教的谷歌、百度,无论信奉何种 AI 路线,巨头们的一切 AI 研究,都为产业化服务。

愿意成为这个冤大头的,只有 OpenAI 一家。

阿尔特曼将 OpenAI 打造成了一个象牙塔:在实验室成立的前 15 个月,OpenAI 都没一个明确的研究目标。平日里,马斯克便带着这群梦想家一起脑暴,探讨 AGI 将如何实现。

2016 年 5 月,时任谷歌首席 AI 研究员曾参观过 OpenAI,对其工作方式相当困惑。他询问 OpenAI 的目标是什么,没想到难倒了 OpenAI,“我们现在的目标,就是…. 做点好事 [3]。”

然而在数月之后,这位研究员却毅然辞职加入了 OpenAI—— 一起做点好事。

毕竟在当时的硅谷,“放肆做梦” 是个极其稀缺的特质。哪怕是 AGI 曾经的布道者 DeepMind,在被谷歌收购后也更实际了些。产业界与学术界的差异,促使了大批科学家的 “叛逃”:

从 2017 年开始,吴恩达、李飞飞等著名 AI 学者先后回归大学校园。

此般大环境下,高举理想主义大旗的 OpenAI,成功抄到了历史的大底,拉拢了不少顶尖人才。

2017 年 3 月,随着团队越来越庞大,阿尔特曼决定给 OpenAI 设立一个更具体的目标,这时,等待他们的是一个好消息与一个坏消息。

接盘:读作理想,写作美元

2017 年是 OpenAI 命运的分水岭。

好消息是,谷歌帮 OpenAI 解决了没有具体目标的困扰。2017 年,谷歌在一篇论文中开源了 “Transformer 神经网络架构”。它的革命性在于可以让 AI “听懂人话”,而这很可能会是通往 AGI 的关键钥匙。

一直在做好事的 OpenAI,瞬间有了攻坚的方向。

一篇改变了世界线的论文

一篇改变了世界线的论文

坏消息则是,没钱攻坚了。

一个热知识是,如果没一个出手阔绰的靠山,根本没资格搞 AI。光算力 —— 也就是芯片的开销,就是一笔巨额成本。从 2012 年的 AlexNet 模型到 2017 年的 AlphaGoZero,算力消耗足足翻了 30 万倍。同期英伟达股价翻了整整 15 倍,黄仁勋做梦笑醒好几回。

早些年,一大批科学家纷纷跳槽去硅谷巨头,就是为了找靠山。2010 年,还在斯坦福的吴恩达研究出一套新算法,却发现大学的算力条件远远不够。他从美国东海岸找到西海岸,发现只有谷歌符合条件。

没人能复制Chat-GPT

2017 年,Transformer 横空出世后,AI 进入大模型阶段。所谓大模型,背后支撑的是大算力、大数据以及大算法,而这也意味着烧大钱。

以 OpenAI 的 GPT-3 模型为例,有机构做过测算,发现训练一个 GPT-3,需要至少 1024 张 A100 显卡持续运转足足一个月 [7]。而 A100 显卡最便宜的版本也要 8769 美元。

也就是说,什么还没算,就先给英伟达交了 900 万美元入场费,这还没算搭建机房的成本和后续源源不断的电费。

如今,ChatGPT 训练一次的成本高达 1 千万美元,这是一般企业无法承受的。小冰公司 CEO 李笛算过一笔账:“如果按照 ChatGPT 成本来考量的话,每天我要烧 3 亿人民币,一年要烧一千多亿。”

回到 2017 年,仍是非盈利机构的 OpenAI,根本无力负担这些费用。原本的大靠山马斯克也在 2018 年初宣布辞职,原因是避免与特斯拉 AI 业务有所冲突。

风雨飘摇之际,阿尔特曼悄悄修改了 OpenAI “非盈利” 的使命,开始给 OpenAI 另谋靠山。

此时,既无科研成果,又无大牛坐镇的微软,进入了阿尔特曼的视野。

作为美国高科技领域老牌列强,微软在 AI 上的决心不可谓不强,但长期被谷歌的 DeepMind 来回摩擦。

2019 年,恨铁不成钢的微软遇见人才济济的 OpenAI。当时,比尔・盖茨本人并不相信 OpenAI 会成功 —— 投资谈判中,他很直白地对其发展路线表达了悲观,认为 Transformer 这类大语言模型在过去五年都没什么进展,没人知道它会有什么价值。

但话虽如此,微软还是爽快的掏出了 10 亿美元。

阿尔特曼与微软CEO纳德拉

阿尔特曼与微软 CEO 纳德拉

这次接盘,很可能会成为微软历史上最成功的一笔抄底。

2022 年 12 月,OpenAI 沿着 Transformer 路线开发出了最新款 AI,名为 Chat-GPT。2 个月后,Chat-GPT 的全球月活突破了 1 亿。

这回,该轮到谷歌睡不着觉了。

突围:难以复刻的奢侈品

Chat-GPT 登上热搜之后,公众常常会讨论一个问题:为什么又在美国?

事实上,复刻一个 Chat-GPT 并非难事。Chat-GPT 的本质,其实以 GPT-3 模型为框架,通过 “对话” 这一场景,搭建了一个普通用户也能使用的 AI 应用,两者之间的技术进步并不算大。

如果翻一翻前两年的新闻能发现,早在 GPT-3 时代,中国公司已经在如法炮制,大可不必对各种中国版 Chat-GPT 冷嘲热讽。在纯粹的技术层面,中国企业落后的并不太多。

我们回到一开始,大模型发展的三要素:算法、算力、数据。

算法,如同人类大脑,决定了 AI 的学习能力。

一个业内主流观点是,尽管没有率先做出来 Transformer、GPT-3,但国内企业在大模型上的技术,距离 ChatGPT 的差距其实也仅在半年到两年之间。

比如 GPT-3 发布之后,百度、腾讯、阿里等企业诸如一言、M6、混元等十万亿参数级别的大模型也很快跟进。

算力,这意味着一种资源,决定了算法的运行效率。

AI 训练高度依赖英伟达 A100、H100 等 AI 专用显卡。常见的消费级显卡通常会将部分算力让渡于光追等功能,相比之下,A100 的特点则是从硬件设计到软件配套 all in AI。

尽管从 2022 年开始,美国已经限制英伟达向中国大陆销售 A100/H100 显卡,但很快英伟达也推出了 A800,成为中国特供版 A100 平替。

数据,训练算法的优质教材,决定了 AI 会学到哪些知识。

站在 OpenAI 背后的,是一座数据富矿,即丰富的高质量英文文本数据。例如在全球最大的百科网站维基百科上,拥有最多百科文章的语言正是英文。

除此之外,英文互联网还有众多类似 Github 这样的专业论坛、海量的图书、学术论文、专业新闻等数据。尽管,中文互联网的文本质量有待提升,但数据总量却是碾压级别的优势。

无论是算法的调教,还是算力的堆积,本质都是砸钱砸人。在这方面,中国其实并不落后于美国。正如百米赛跑中,冠军和亚军的差距往往不到一秒钟。

然而不到一秒钟的差距,却决定了鲜花与掌声的归属,这可能也是 Chat-GPT 和 “中国版 Chat-GPT” 的差别。

OpenAI 的诞生似乎离不开无数偶然的堆积,但也有着同样多的必然。“造福人类” 的 AGI 神教,聚集了世界上最有才华的青年 AI 学者;适时出现的技术突破让 OpenAI 的路径有迹可循,微软的出现组成了最后一块拼图。

Chat-GPT 的昂贵之处,既在于天文数字的投资和令人心生畏惧的烧钱速度,也在于一个能够包容疯狂想法的商业环境。正如阿尔特曼所说:

成千上万的创业公司在做社交软件,只有不到 20 家公司致力于核聚变。然而伟大的事情实际上更容易,因为飞向太空是每一个人的梦想。

梦想并不昂贵,但敢于梦想的勇气却是一件奢侈品。

来源:远川研究所 微信号:caijingyanjiu