第 1 章 ChatGPT 惊世登场

100 年后,我们将会回顾这一刻,那是真正的数字时代的开始。

——微软全球副总裁贾里德·斯帕塔罗

“用 1000 亿美元就可以复现人类的全部智能。”当在饭局上听到这句话时,我感到头皮一阵发麻。

2023 年 2 月 12 日,我受邀参加朋友在北京望京组织的一场人工智能交流活动。大家边吃边聊,交流最近火爆的 ChatGPT。我们讨论到微软对炙手可热的 ChatGPT 的新投资,原本微软已经投资了 30 多亿美元,还要再投资 100 亿美元。

我们讨论道:

“花完这 100 亿美元,难道通用人工智能(AGI)就此成功了吗?”

“可能不够啊!如果再保守一点,花完 1000 亿美元肯定可以实现通用人工智能。”

很快,有人提出反对意见:

“看 ChatGPT 目前的迭代速度,可能还要更快,看起来用不了那么多,100 亿美元就够。”

“1000 亿美元就能复制人类,人类不是万物之灵吗?原来也没那么值钱呀!”

“哈哈哈哈哈……”身为人类的我们自嘲一下,都大笑起来。虽然都是玩笑,但是这件事千真万确:人类智能即将被 AI(人工智能)彻底突破。

2023 年春节刚过不久,在人们返回工作岗位后的几周里,整个互联网圈都被 ChatGPT 的智能突破所震撼。每天都有人在社交网络上分享 ChatGPT 的种种神奇表现,相信正在读本书的你也“刷”到过相关的文章和短视频。关于人工智能的线下交流会密集起来,互联网公司也迅速地召开应对 ChatGPT 浪潮的头脑风暴会议。

我原本是互联网产品经理 1。虽然我最近几年已经不在互联网一线了,但是 ChatGPT 把我的注意力拉了回来,因为人工智能的突破太令人激动了,我开始疯狂地学习和关注 ChatGPT 的一切。最近几天,我发现围绕人工智能的讨论中出现了越来越多原本不可能出现的词:“智能涌现”“AI 幻觉”“AI 对齐”,还有“数字员工”“图灵测试”“具身智能”等听起来有些让人匪夷所思的词。这些词居然都是真真切切的概念,而不是科幻小说的假想设定。

今天的人工智能交流餐会也是一样,大家继续讨论道:

“我有个朋友,是做出海创业的。他已经给员工下了一道命令,必须全员都用 ChatGPT 辅助工作,谁不用就开除谁,因为他所在的行业竞争激烈,ChatGPT 对工作产出效率影响巨大。”

“是啊,现在处于人类工作的 AI 辅助驾驶阶段。”

“最近,AI 绘画作品越来越逼真了,而且几乎有无限创意。我有个原画师朋友因为 AI 绘画刚刚失业了!”

“每一次科技革命都会有人失业,从蒸汽机时代起就是这样,所有人都得拥抱新技术。旧的工作机会消失,也会有很多新的工作机会,例如最近出现的提示词工程师(prompt engineer)。”

讨论气氛越来越热烈,每一个人都在分享自己经历的 AI 惊奇时刻和种种推演,大家不知不觉已经交流了很长时间。

我忘了,我还要赶去做一场演讲。

糟糕,我已经迟到半小时了!

尽管我提前从交流餐会离场,但时间还是晚了。我的 ChatGPT 演讲应该在 15 分钟前就开始了,而我现在却还乘坐网约车奔驰在北京的北四环上,我在路上还可以检查一下 PPT。后天就是 2023 年的情人节,这原本应该是一个轻松愉快的周日下午,我却在奋力向前赶路。

“叮铃铃——”电话铃声响了。幸好今天是打车出来的,没有开车,不耽误我接个电话。

“你要聊 ChatGPT 吗?”我问朋友。

“你怎么知道?哈哈哈!”朋友回答。

我果然猜对了。我说道:“因为这几天人人都在聊 ChatGPT 啊!春节开工后这一周,我每天都处于信息大爆炸之中。你知道 ChatGPT 有多震撼吗?我见到的每一个聪明人都承认这是一场颠覆性创新。”

朋友说道:“我就知道问你是对的,你总是对新事物有无穷的好奇心,我看你在疯狂地发关于 ChatGPT 的朋友圈,就想听听你是怎么看 ChatGPT 的。”

“我认为 ChatGPT 将开启第四次科技革命。”

“太夸张了吧!”

“没有夸张。我正在去五道口的路上,正要去做关于这个主题的演讲,我一会儿分享直播链接给你,你听一下。”

“那太好了,我一会儿就听。”朋友说道,“对了,我给你说一件事。前几天,我在社交网络 App 上看到一个特漂亮的女生,超级漂亮、超有气质。”

“那太好了呀!刚好你是单身,有机会你可以联系一下嘛!”

朋友说道:“谁说不是呢?但你猜怎么着——”

“联系上啦?”

“哎呀,伤心死了,我发现她是一个数字人!假的!”

“哈哈哈哈哈哈……”我大笑不止。

“好歹是个人也行啊!我都有点儿蒙了。我喜欢了好几天的一个人,居然不是人。是我脑子坏了吗?我都怀疑我的智商了。”

“哈哈哈哈,太好笑了。你知道这是怎么回事吗?数字人之所以这么逼真,其实是因为变形金刚。”

“什么?我没听错吧,变形金刚?”

“对,就是 Transformer 模型。这也和我今天演讲的主题 ChatGPT 有关,你一会儿听吧,我快到了。”

我下了车。这天雨夹雪,路上行人不多。我急匆匆地走进了五道口的 META SPACE 咖啡馆。室内气氛活跃,有人喊了一声:“马占凯来了!”我立马别上麦克风,进入了演讲状态。

本书的缘起就是这一场演讲,演讲的题目是“ChatGPT:人类新纪元”。这个标题起得非常大胆,究竟是怎样的东西可以匹配得上“新纪元”这三个字呢?我这样说,会不会被认为太过疯狂?

2023 年春节大火的科幻电影《流浪地球 2》彻底点亮了中国科幻电影的技能树。在《流浪地球 2》的故事情节中,有一个概念叫作“流浪纪元”:在未来的一个时期内,太阳变得异常活跃,这引发了一系列的太阳耀斑风暴,导致地球环境急剧恶化,人类生存环境受到威胁。为了拯救地球和自己,人类计划使用 12 000 台巨大的行星发动机,将地球从原来的轨道上推出太阳系,从而踏上漫长的流浪旅程。人类转入永无日光的地下生活,24 小时的概念变得毫无意义,人类作息周期延长到每天 60 小时,所有习惯面目全非。这就是“纪元”的要义,也就是“永久地发生改变”——我们再也回不到过去,新环境给我们生活的方方面面打上烙印,一切都要从零开始。

我之所以把 ChatGPT 称为“人类新纪元”,是因为这就是人类第四次科技革命的开始,真正的史诗级创新已经开始,目前还看不到想象力的天花板。

ChatGPT 开启第四次科技革命后,人类生活的很多方面将改变。我们在所有科幻电影里看到过的关于机器人的场景,突然成为可能。

贾维斯是漫威电影《钢铁侠》中的 AI 管家,它是钢铁侠托尼·斯塔克的左膀右臂。贾维斯可以自动向美女记者介绍家居环境,还可以帮助钢铁侠完成各种任务,比如记录战甲试验数据、破解密码、制订计划等。很早以前我看电影的时候就觉得,导演这样设定 AI 管家的形象,简直一点儿都不了解技术。我当时认为,人类做不出像贾维斯这样高等级的 AI,也不可能以自然语言和机器人对话,完全就不可能。然而,随着 ChatGPT 的诞生,这一切都成了可能。

在传奇导演克里斯托弗·诺兰的神作《星际穿越》里,也有一个平时幽默、关键时刻能救人命的长方体 AI 机器人——塔斯(TARS)。让人印象深刻的片段,是男主角库珀和机器人塔斯的对话。

库珀:塔斯,幽默指数,75%。

机器人塔斯:确认。自毁启动倒计时,10,9,8,7……

库珀:还是设定为 60% 吧。

机器人塔斯:幽默指数 60%,确认。砰砰砰,有人敲门。

库珀:你再贫就设定为 55%。

然后,机器人塔斯就老实了。

在 ChatGPT 诞生之前,我们是无法想象 AI 拥有这样的对话能力的。开始用 ChatGPT 后,我总是被 AI 对自然语言的这种理解和丝滑流畅的表达能力所震惊。AI 机器人将拥有这种语言能力。

再举一个很有说服力的例子:这次在五道口演讲所用的精美 PPT,其中超过三分之二的配图其实是 AI 配图。我在演讲时对观众说道:“这可能是你们看到的第一个 AI 配图超过人类配图的 PPT。”此言一出,观众睁大眼睛细看以假乱真的 AI 配图。这种变化是永久性的,我以后再给 PPT 配图时,永远优先考虑用 AI 生成图片。我是一个不会画画、没有上过一天素描培训班的人,但是我最近一个月画了 1000 张画,全部用的是 AI 绘图工具。这些图估计一个设计师一年也画不完。

ChatGPT 所开启的时代是否配得上“人类新纪元”的称号?我们来看看著名科技领袖都是怎样评价的。

“GPU 之父”黄仁勋(英伟达公司创始人兼首席执行官)这样评价 ChatGPT:“对于人工智能来说,这就是‘iPhone 时刻’。”第一代 iPhone 于 2007 年发布,掀开了移动互联网的大幕,让我们的生活变得如此便利:二维码无处不在,订机票、点外卖、打车……它几乎无所不能。ChatGPT 的重要性能够达到如此之高吗?

前世界首富、科技领袖比尔·盖茨评论道:“ChatGPT 的重要性不亚于互联网的发明。”互联网已经像水一样融入了我们的生活,我们已经完全无法想象没有互联网的世界是什么样子。ChatGPT 居然这么重要,其重要性甚至超过了 iPhone 和安卓手机的发明?

而 360 集团创始人周鸿祎在做直播时提到,比尔·盖茨低估了 ChatGPT。老周说,ChatGPT 已具备大学毕业生的水平,在一两年里就会超越人类的智力,大概几年内可能会产生意识,会变成提高社会生产力的超强工具。所有行业都将被 ChatGPT 这样的 AI 大数据模型重塑一遍,所以如果不能搭上这班车,就会被颠覆。ChatGPT 应该会引导新的产业革命和工业革命。由于 AI 的影响,计算机知识工作者可能会比体力劳动者受到更大的影响。周鸿祎也表达了对 AI 的担忧,他认为这可能是 AI 毁灭人类的开始。

2023 年春节后的几周时间里,我每天都在学习和交流关于 ChatGPT 的知识,因而被大量信息淹没。有那么几个时刻,我处于震颤之中。经过数天的认真思考和酝酿,我不得不承认,在 ChatGPT 发布的那一天,也就是 2022 年 11 月 30 日,人类迎来了第四次科技革命。我们所有人都会经历这一场变革,没有人能置身事外。

这个结论让我无比兴奋。人类的平均寿命在 80 岁左右。虽然人类诞生于数百万年前,但有文字的人类文明史只有 5000 多年。在这 5000 多年的历史中,最关键的转折点是最近 200 多年的三大技术变革:机械革命、电力革命和信息革命。

从 18 世纪 60 年代的机械革命开始,到现在已过去 260 多年,3 次科技革命平均每次间隔 80 多年。离我们最近的第三次科技革命——信息革命——持续了至少 76 年。信息革命可以细分为四次浪潮:计算机、个人计算机、万维网、智能手机,平均间隔期为 20 年左右。

1946 年,第一台通用电子计算机诞生。

25 年后,第一台个人计算机诞生。

18 年后,1989 年,英国科学家蒂姆·伯纳斯−李发明了万维网(也就是我们所熟悉的 PC 互联网)。随后,他发明了世界上第一款浏览器和服务器。

再过 18 年,2007 年,乔布斯重新发明了手机,iPhone 首次惊艳亮相。

2022 年年底,ChatGPT 的诞生意味着持续了 15 年的移动互联网时代结束。

后两个阶段是我们中的多数人经历过的科技浪潮。从计算机的发明(1946 年)到 2023 年,平均每 20 年左右才有一次浪潮。每一次浪潮都深刻地影响了一代人的方方面面,同时催生了无数的商业传奇,创业者和创新企业站上了浪潮之巅。

不妨将智能革命和移动互联网革命对于我们的意义做一个对比。

手机的智能化主要在于扩大了使用场景,例如打车、点外卖、刷短视频,增强了人们彼此间的社交联系。这和 PC 互联网时代没有本质的区别,因为这些事在 PC 互联网时代也都能实现。

但是,ChatGPT 带来的智能革命就不一样了。作为一个人工智能语言模型,它拥有的自然语言处理、推理思考等能力,让很多过去无法想象的事变得可行,并且它的能力目前来看完全没有天花板。那些科幻电影里的机器人将走入现实世界,并与人真正地交流。

我们每个人的平均工作时间大约为 50 年。按照我们之前说的每 20 年一次科技浪潮来算,我们这一辈子顶多能赶上两次。你可能已经经历了移动互联网浪潮,接下来的这一次智能革命将是我们这一代人退休之前经历的最后一次科技浪潮。

即便科技的进化速度越来越快,一次科技浪潮也会持续 20 年。也就是说,2050 年之前,智能革命将是我们所经历的最大的一次科技变革。ChatGPT 不会火热几个月热度就下去,而是会引领未来至少 20 年的人工智能创新。

神奇的是,第四次科技革命居然是从一个小小的聊天对话框开始的。

我们先来看看 ChatGPT 的界面,如图 1-1 所示。ChatGPT 是一个人工智能聊天机器人,你可以问它任何问题。

{%}

图 1-1 ChatGPT 的界面。ChatGPT 是一个网页服务 2,可以在桌面计算机和手机的浏览器中使用

我们先对 ChatGPT 进行人类哲学三问,如图 1-2 所示。

{%}

图 1-2 ChatGPT 回答人类哲学三问。ChatGPT 主要有两个模型版本:GPT-3.5 和 GPT-4,后者先进很多

我们来看一下 ChatGPT 有多么神奇。第一个例子是猫鸡数腿问题,如图 1-3 所示。

为什么这么强大的 ChatGPT 居然回答不对“猫和鸡有几条腿”这种简单的问题呢?这是因为,它本质上是一个自然语言模型。也就是说,ChatGPT 作为一个神经网络,没有上过一节数学课,但是上过 100 亿节语文课。它不会做简单的算术题是正常的。这是我最早测试出来的 bug,然后我就理解了 ChatGPT 的边界和限制在哪里,以及为什么它会“胡说八道”。ChatGPT 的进化速度很快,在本书写就时,它已经能够答对猫鸡数腿问题了。

{%}

图 1-3 ChatGPT 回答猫鸡数腿问题

ChatGPT 让我感到恐怖的不是它诚恳地认错,而是它真的可以理解我在说什么。例如,我说“你刚才说共有四条腿”,我并没有质问“你说错了,你怎么算的”,但是 ChatGPT 可以理解隐含的意思。ChatGPT 总是快速说:“对不起,我犯了一个错误。”并且,它能解释算错的原因。ChatGPT 的回应让我震惊。

我们再来看第二个例子,即大象进冰箱的问题,如图 1-4 所示。

{%}

图 1-4 ChatGPT 回答大象进冰箱的问题

如果你去问一个朋友同样的问题,他大概率不能讲出这么富有逻辑的话。只有非常认真而且聪明的人,才会这样分析问题并给出答案。实际上,这类问题非常像微软和谷歌的面试题,ChatGPT 已经回答得很好了。

我们再来看第三个例子,即猜狗名问题,如图 1-5 所示。这个例子来自猎豹移动首席执行官傅盛。

{%}

图 1-5 ChatGPT 回答猜狗名问题

这种令人惊讶的推理能力与人类的能力接近,可以说已经达到甚至超越了小朋友的水平。

ChatGPT 的回答水平已经超越了很多人。我们每个人在生活中都会遇到讨厌的人,有些人就是不会好好说话。在和 ChatGPT 对话的过程中,我觉得它非常像一个极度靠谱的员工,从来不狡辩,还能自我分析错误并且指出改进的方向。果不其然,已经有很多人开始真正应用起 ChatGPT 来了。

我有一个朋友,他在朋友圈里分享道:“我发现我已经有一半的工作离不开 ChatGPT 了。ChatGPT 做的工作比我的人类助理完成的效果还要好。我只需要每个月为 ChatGPT 花 20 美元的会员费,相当于每个月约 140 元人民币,就能够聘请到一位优秀的数字助理。”

现在你知道 ChatGPT 的理解能力有多强了吧?还有一个让人细思极恐的例子。波士顿动力公司拥有非常先进的机器人,它们不仅可以搬东西,还可以前空翻和后空翻。该公司的广告片展示了一个未来的场景。一个工人在很高的脚手架上说:“糟糕,我忘带工具包了。”这时候,站在地上的机器人听到后就拿起工具包,给他递了上去。

如果是在 ChatGPT 发布之前,这一段视频可以说是编剧的精心安排。这是因为,机器人不可能在你没有发布指令的时候自己行动,机器人无法理解人的意图是什么。但是在 ChatGPT 发布之后,这一切都变了。机器人会自行理解人的意图及需求,并做出下一步行动,不需要你明确地下达指令,这一点让它非常像人。

我们来看一个很好的证明,如图 1-6 所示。

{%}

图 1-6 ChatGPT 对文本进行润色

我对 ChatGPT 说:“帮我检查一下语法错误。”

ChatGPT 的回答是:“这段文本的语法是正确的。”到这里,这个回答还很正常。但是它继续补充道:“如果需要改进文本的流畅度,可以考虑添加一些连接词和过渡词。”我可没有提这个需求。而且,它还给出了经过改进后的答案:添加了一个连接词“但”。3

这仅仅是 ChatGPT 的第一个公开版本 GPT-3.5 版。无论是把 ChatGPT 比作第一代 iPhone,还是比作里程碑般的 iPhone 4,都很难想象 ChatGPT 发展到第 10 个版本后将有怎样令人震惊的理解能力。

一个机器人,不管它能翻多少个跟头,能移开怎样的障碍物,能怎样冲出香浓的咖啡,只要它听不懂人话,理解不了你的需求,就什么也不是。只要机器人能够理解自然语言,能够和人进行语言交互,那么它就拥有了灵魂。ChatGPT 为机器人拥有灵魂提供了无限可能。

展望了机器人的未来之后,我们再从历史的角度来看一看 ChatGPT 的革命性意义。

在人类历史上发生过三次科技革命。

第一次科技革命(约 1760 年~ 1840 年):蒸汽机革命,以蒸汽机和机械化为代表的技术进步,是人类发展史上的最大拐点。在此之前,人类只能利用生物能,比如人力、畜力、木材秸秆、动植物油脂等,磨坊和纺织厂都只能沿河而建。由于缺乏巨大的动力源,商品无法大规模流通,只有通过运河实现大规模运输。在长达几千年的封建社会里,生产力的发展速度极为缓慢。而在蒸汽机革命来临之后,人类不再受限于生物能,一切都开始猛然加速。蒸汽机车可以把东西运输到任何地方。20 世纪 90 年代,我上小学时,还能在农田里看到偶尔驶过的、冒着浓浓黑烟的蒸汽机车。我们今天仍然使用“汽车”这个词。之所以称作“汽车”,并非因为汽车的能源是汽油。汽车最初的动力源其实是蒸汽机,所以汽车的“汽”是蒸汽机的“汽”。直到 20 世纪初期,汽车才逐渐转向依赖内燃机提供动力。

第二次科技革命(约 1870 年~ 1945 年):电力革命,以电力、内燃机、化学工业、钢铁等为代表的技术革新。在理解电之前,雷公电母就是人类对电的解释。当电灯刚刚开始在美国普及的时候,许多人的家里还没有电灯。晚上一起结伴去广场上看电灯在当时就成了美国人的时尚。千百年来,晚上都是漆黑一片,顶多有一点烛火,现在突然亮如白昼,亮度远远超越月亮,这是怎样的奇观啊!在那一时期,美国的时尚潮流也发生了变化:女性的晚礼服开始出现宽松的裙摆和露肩的设计,饰以闪闪发亮的宝石和珠子,以配合电灯的亮光效果。电力对人类的改变可谓天翻地覆。再举一个看似微不足道的例子:冰箱。以前,除了发酵和风干,人类几乎无法保存食物。有了冰箱之后,食物储存易如反掌。很多人小时候听过一句话:“楼上楼下,电灯电话。”这是对电气化时代理想生活的经典描述。

第三次科技革命就是信息革命,其标志主要是 4 件东西被发明出来:计算机、个人计算机、万维网和智能手机。当我们回顾历史的时候,往往可以发现很多有趣的事实。“浓眉大眼”的微软抓住个人计算机的机会,站上了浪潮之巅,和英特尔形成了 Wintel 联盟,从而称霸了整整一个时代。然而,拥有庞大的计算机系统并垄断浏览器市场的微软,不仅错过了浏览器之上的搜索引擎,还错过了移动操作系统。虽然微软抓住了云计算的机会,但是并未像苹果公司和谷歌公司一样站在聚光灯下,也算是错过了 30 年。ChatGPT 带来的这次史诗级创新机会,却被微软牢牢抓住了。

作为一种颠覆性创新,ChatGPT 对于新用户来说往往难以理解。从 2007 年第一代 iPhone 诞生,到 2010 年里程碑般的 iPhone 4 发布,经历了 3 年时间,过程非常漫长。而 ChatGPT 从零到拥有一亿用户,只用了两个月,这完全就是一场突变式创新。相比之下,这个过程更激荡人心。在 ChatGPT 的飞速扩散过程中,我观察到几个有趣的现象。

第一,测试。当面对极具创新性和突变性的新事物时,普通用户的第一反应通常就是“调戏”,而专业用户则倾向于在“调戏”中测试它的边界。随着通用人工智能创新产品层出不穷,测试新模型总是令充满好奇心的用户乐不思蜀的事。

第二,面目模糊,存在分歧。颠覆性创新跨度太大,以至于变得无法理解。无论是专业人士,还是非专业人士,往往都很难理解这种创新的本质和未来发展趋势。对于这个新事物的看法,存在巨大的分歧。人人都觉得自己是对的。每个人都像是在盲人摸象,试图从各自的角度道出其本质。

有人认为 ChatGPT 只是一个巨大的压缩器,本身没有什么新的内容,仅仅是将互联网的信息压缩到了一个语言模型中。而有人则称 ChatGPT 是一种浏览器,还有人说它是操作系统。每一种观点其实都从不同的视角解释了 ChatGPT 的本质,从其视角来说,都是对的。

第三,创新周期很长。回顾信息革命的四次浪潮,计算机、个人计算机、万维网和智能手机的发明都跨越了约 20 年的时间。因此,如果我们把 ChatGPT 看作一场技术革命,那么创新在 2050 年之前将不会停止,而智能革命将影响所有行业。无论如何,我们都无法避免受到智能革命的影响。

一些创业者已经被 ChatGPT 所震撼,但因为无从下手,只能选择旁观,所以有一种深深的无力感。然而,如果你认识到这是一场深层次、大范围的产业变革,其时间跨度为 10 ~ 20 年,如果这场智能革命对应移动互联网革命,其中至少包含两个大浪、数个中浪和几十个小浪,那么现在开始学习和理解 ChatGPT 一点儿也不晚。

有评论家认为,ChatGPT 就是 AI 领域的“寒武纪大爆发”。这意味着将涌现出难以预测的“新物种”,并充斥社会的每个生态位。现在我们还难以想象将涌现出怎样的“新物种”。一个惊人的案例是,网络诈骗行业已经将 ChatGPT 的能力应用到网聊诈骗中。受害人和伪装成美女的聊天机器人进行真正的自然语言对话。由于 ChatGPT 已经通过了图灵测试,因此大多数情况下,受害人不会意识到对方是一个数字人。这种拥有无限理解能力和共情能力的数字人,是多么温柔而可怕的陷阱啊!

我们需要以怎样的态度去迎接这场技术革命呢?首要的一点是,不要急着否定,而是需要去感受、去学习。以乔布斯为例,在个人计算机刚被发明的那个时代,他曾在接受采访时告诉人们,计算机就像人类思想的自行车。尽管这样的比喻在今天看来非常粗糙且不准确,但在那个时代,乔布斯的比喻已经非常好了。我们仍然无法准确地定义这次智能涌现的本质,即使是 ChatGPT 的论文作者,也无法完全解释为什么这种方法会产生如此高的智能性。因此,我们现在不要试图去定义 ChatGPT 是什么,而是需要持续探索和学习。

可能有人会问:“我又不喜欢机器人,AI 和我有什么关系?”从最近几百年看,决定世界格局的主要是科技革命和战争。然而,《人类简史》作者尤瓦尔·赫拉利认为,战争的频率正在降低,即便有局部冲突发生,世界仍会越来越安全。所以,科技革命对于我们普通人的影响会越来越大。科技革命的一个显著特点是具有系统性。以智能手机为例,它以全方位、多层次的方式改变了我们的生活。未来,AI 的深度普及也将如此。

在某种意义上,ChatGPT 就像鼠标一样,是交互界面的一项重大创新。在鼠标和图形用户界面被发明之前,计算机只提供字符显示和命令行,只有程序员才能很好地使用计算机。但自从鼠标出现以后,所有人都能够使用计算机,只需点点鼠标即可。ChatGPT 同样改变了人机关系,现在人类迁就机器,未来机器迁就人类。

以翻译为例,我们以前需要打开翻译工具的主页,输入内容,然后单击翻译按钮才能得到结果,有时候还需要选择中英文。现在,这一切都在一个框内完成,万框归一。无论是将内容翻译成中文还是英文,抑或将其翻译成日文,都可以轻松实现。类似的例子还有智能音箱和智能扫地机器人。它们只能理解有限的语音指令,一旦理解有误,任务就失败了。如果能利用 ChatGPT,智能扫地机器人就不会听错指令了。

如果机器人和智能设备获得类似于 ChatGPT 的自然语言处理能力,就有可能像《钢铁侠》中的 AI 管家贾维斯一样,成为现实中的个人助手。人们可以像与真人交流一样与机器人进行交流。如果认可 ChatGPT 像鼠标一样是一种交互界面创新,那么你很快会感受到,ChatGPT 对人类的影响将是全方位的。渗透率和到达率都将达到 100%,这意味着所有人都可以利用 AI 技术,包括不会使用手机点外卖或订机票的老年人。如果能利用 ChatGPT 的自然语言处理能力,所有人都可以使用口语来下单,甚至可能不需要动一根手指。

科技革命的另一个特点是具有全球性。第一次工业革命首先发生在英国,珍妮纺纱机和蒸汽机的发明解放了英国的生产力,成为大英帝国崛起的关键。在接下来的一个世纪中,英国一直领先于其他国家。美国则抓住了第二次工业革命的机遇,反超了大英帝国。韩国和日本则在信息革命中抢占了电子制造产业的生态位,成为发达国家。而中国则在信息革命的第四波浪潮中抓住了移动互联网浪潮的机遇,孕育出了多家市值数千亿美元的企业,其中 TikTok 短视频更是深受全球青少年的欢迎。

ChatGPT 诞生于美国,而美国在接下来的几十年中将利用 AI 技术输出其价值观并赚取大把的美元,这将进一步拉大美国与其他国家的差距。如果不主动出击,我们将在第四次科技革命中落后。因此,我们需要紧紧拥抱第四次科技革命——智能革命。

第四次科技革命所催生的市场规模有多大呢?有机构预测,到 2030 年,AI 市场规模将达到万亿美元级别。到时候,每个家庭都可能拥有机器狗或机器人,它们的数量可能超过真狗的数量。

ChatGPT 横空出世,令互联网圈震惊。自 AlphaGo 战胜李世石后,人们就开始广泛探讨通用人工智能(artificial general intelligence,AGI)的可能性。许多人认为,通用人工智能可能在二三十年之后实现,也可能永远都无法实现。然而突然之间,ChatGPT 让人们看到了通用人工智能的曙光。

大多数从事研发工作的互联网从业者感到非常震惊。大家都想知道 ChatGPT 的自然语言理解能力为何如此强大,我也有同样的疑问。在迅速阅读关键的几篇论文之后,我总结了 ChatGPT 强大的机制:注意,变形金刚要变大。这是 ChatGPT 进化的核心技术要素。

ChatGPT 的突破来自 2017 年的注意力模型。当年,谷歌团队发表了一篇史诗级的论文,题为“Attention Is All You Need”,中文意思是“注意力就是你所需要的一切”。这篇论文提出了 Transformer 架构。因为电影《变形金刚》的英文名是 Transformers,所以有些人将上述论文提出的架构称为“变形金刚架构”。变形金刚架构的核心就是注意力机制。以前,计算机在处理图片时需要从几百万个像素点中提取最重要的特征,而基于变形金刚架构的注意力模型则可以提取图片中最关键的特征。举个形象的例子,当你带小朋友在公园里散步时,小朋友总是可以注意到树上的鸟窝和地上的昆虫,而成年人往往对这些视而不见。注意力模型的作用机制就类似于此。

除了注意力机制,ChatGPT 的另一个关键驱动因素是数据规模的增大——不是一般地大,而是恐怖级别地大。在 ChatGPT 之前,共有 3 个 GPT 模型,但最神奇的是从 GPT-2 到 GPT-3 的变化。当神经网络的参数量从十几亿增加到 1750 亿时,智能就涌现出来了。这是非常神奇的。相关的论文只讲了操作方法,远远没有揭示这一切到底是怎样发生的。

为了解释智能是如何诞生的,必须提到复杂性科学中的涌现理论。当规模大到一定程度时,就会出现在小规模时不存在的新范式。如果你关心 AI,那么以后还会反复看到“涌现”这个词。单只蚂蚁的智能非常低,但是千万只蚂蚁组成的蚁群就有很高的智能。从蝴蝶到鸭子,从海豚到狗,从黑猩猩到人,这些物种的大脑本质上并没有太大区别。低级大脑和高级大脑之间并没有非常清晰的界限,最主要的差异在于神经元数量和神经连接数量的多少。

人的大脑约有 1000 亿个神经元和近 100 万亿个神经连接,而 ChatGPT 的神经网络参数规模已经达到了千亿级别。神经网络参数规模达到千亿级别后,智能涌现,很多人类技能将被解锁。尽管在训练阶段,研究人员并没有对 ChatGPT 的神经网络进行翻译能力、理解能力、改进能力的训练,仅仅让 ChatGPT 的模型进行概率预测的文字接龙训练,但是在智能涌现后,它对文章的理解、概括、改写和翻译等能力都得到了很大的提升。

智能涌现的必要条件是规模越大越好,这就是大语言模型(large language model,LLM,以下简称“大模型”)技术路线的核心。做大模型的人都会说“大力出奇迹”。训练一次 ChatGPT 的模型成本高达千万美元,至少需要上千块超高端显卡(英伟达 A100)。每块 A100 售价 1 万多美元,目前还不对中国出售。

大模型的迭代极为困难。ChatGPT 开发团队租用了微软云计算的 3 万块英伟达 A100 显卡。与 OpenAI 相比,即便是像谷歌这样年收入几千亿美元的巨头,其大模型水平也相差 6 ~ 12 个月的时间。大模型的训练成本非常高,规模也非常大,因此斥重金训练大模型这套行事逻辑被人们称为“暴力美学”。

一旦稍微了解一下大模型的训练过程,你就会发现,重复这个过程是一件多么令人绝望的事情。英伟达 A100 显卡之间的每秒数据交换量都在几百 G 的数量级,这相当于每秒传输一块硬盘上的所有数据。要把上千块显卡连接在一起,将是一个非常复杂的系统工程。基于区块链技术的分布式网络也会使用显卡,但因为卡间通信速率远远不够,所以几乎不能用来训练大模型。

训练大模型一次就需要花一个月的时间。就像马斯克制造火箭一样,不可能一次就成功发射。在最终成功训练之前,会失败很多次。对于小团队来说,这是令人绝望的。

ChatGPT 的第一个版本(GPT-3.5 版)仅仅是一个纯文字模型,还没有图片处理能力。它没有见过大树和小草,也没有见过乌鸦和大象,但是它能回答很多不可思议的问题。ChatGPT 其实就是“信息之神”,它在许多方面的知识已经永远超越了大多数人。如果将来 ChatGPT 整合文本、图片、视频、音频等多种模态,那么它将得到更加不可思议的发展。目前基于 GPT-4 模型的 ChatGPT 已经发布,不过它仅面向 ChatGPT Plus 付费用户。

虽然 ChatGPT 带来了很多好处,但也存在巨大的潜在威胁。谈到人工智能毁灭人类的可能性,我们就不得不提及埃隆·马斯克这个“硅谷钢铁侠”。马斯克造火箭,制造机器人,并将特斯拉电动汽车送入太空,他希望实现人类殖民火星的梦想。然而,他也担心由于缺乏充分的监管和控制,人工智能技术的发展可能会对人类造成不可预测和无法控制的威胁。因此,他与其他几位科技大佬共同创立了 OpenAI。然而,OpenAI 研发出了目前全球最为强大的聊天机器人 ChatGPT。这个故事听起来像是电影《终结者》中的情节——人类为了自我防卫而研发出全球计算机防护系统“天网”(Skynet),但它逐渐变得聪明和自主,最终对人类展开攻击并企图毁灭人类。

在 2023 年 2 月 15 日的世界政府峰会上,马斯克表示,ChatGPT 所带来的潜在威胁是巨大的。

虽然有人认为 AI 威胁论只是一种哗众取宠的说法,但实际上它确实存在。亚马逊云服务科学家谢尔盖·伊万诺夫在 2022 年 12 月测量了第一版 ChatGPT 的智商,其得分为 83 分,和人类平均 100 分的智商已经距离不远。而这只是 GPT-3.5 模型的水平。到了 2023 年 3 月,基于 GPT-4 的 ChatGPT 发布。芬兰心理学家埃卡·罗伊瓦伊宁对 ChatGPT 的测试显示,其智商已经飙升到了 155 分,超越 99.9% 的人类。在发布后的第一个月,ChatGPT 还处于严重偏科的状态,但是它就像一个拥有无限潜力的小朋友,随着生长,新能力不断被解锁。想象一下,iPhone 从诞生到 2023 年已经迭代了 14 个版本。如果也迭代十几个版本,ChatGPT 将达到怎样的聪明境界?如果 AI 的智商达到 1 万分,我们甚至无法理解这意味着什么。这就像我们去看宠物狗,它是否知道我们每天需要出门上班赚钱,才可以给它买狗粮?完全不会,从《猫的报恩》这个故事来看,小狗一定以为我们出门去打猎了。智商达到 1 万分的 AI 看人类,就像我们看小狗一样,它能理解我们,我们却无法理解它。

一个系统越复杂,就会越不稳定。生产力越高,破坏力也越大。在冷兵器时代,没有人能够直接毁灭地球,而后来人类拥有了核武器,地球变得危险了许多。如果 AI 的智商达到 1 万分,那么我们怎样去控制它?这是真实存在的威胁。即便我们造的 AI 是安全的,它会不会被别有用心的人蓄意利用?

通用人工智能被誉为“人工智能的圣杯”。现在已经有不少人认为 ChatGPT 实现了这一目标。就发展阶段而言,人工智能可以分为三种:弱人工智能、通用人工智能(也就是强人工智能)和超人工智能。弱人工智能已经被广泛应用于身份识别、翻译、音频转文字和自动字幕生成等领域。通用人工智能则具有泛化能力,就像人类几乎可以学会所有的技能。正如猫抓老鼠、狗看门一样,弱人工智能拥有定向技能,而强人工智能可以达到或超越人类智慧水平,因此也被称为“通用人工智能”。超人工智能目前只存在于科幻电影中,是指远远超越人类的人工智能。

目前,可以说 ChatGPT 已经无限接近通用人工智能了。在 GPT-3.5 版 ChatGPT 刚发布时,因为还存在不懂数学等偏科问题,人们对于它是否属于通用人工智能还有很大的分歧。实际上,在对自然语言的理解上,ChatGPT 已经达到人类水平了。在 GPT-4 版 ChatGPT 发布后,不仅其智商测试已经达到了 155 分,微软在 2023 年 3 月 22 日发布的研究报告《通用人工智能的火花:GPT-4 的早期实验》(Sparks of Artificial General Intelligence: Early Experiments with GPT-4)中还得出了这样的结论:除了其对语言的掌握,GPT-4 能够解决跨数学、编码、视觉、医学、法律、心理学等领域的新颖和困难的任务,而不需要任何特殊提示。此外,在所有这些任务中,GPT-4 的表现与人类的表现惊人地接近,并且经常远远超过以前的模型,如 GPT-3.5。鉴于 GPT-4 的广度和深度,我们认为它可以被合理地看作通用人工智能系统的早期版本(尽管仍然不完整)。现在 ChatGPT 的种种惊人表现,只是通用人工智能的冰山一角。人类已经迈出了夺取通用人工智能圣杯的第一步。

亚马逊创始人杰夫·贝索斯有一个著名的决策工具,即单向门和双向门机制。不可逆的决策是单向门,需要缓慢和慎重的思考,例如建设庞大的数据中心。可逆的决策是双向门,决策速度更快且可以迅速纠正错误。这个世界的很多事可以分为单向门和双向门。真正的颠覆性创新就是单向门,一旦它出现,我们就再也回不到过去了。举例来说,我们再也无法想象在没有手机的时候,我们是怎样蹲厕的,也实在无法想象,在没有手机、计算机和互联网的时候,我们整天都在干吗。

ChatGPT 来了,通用人工智能来了,能听懂自然语言的机器人也要来了。天才改变世界,科技改变生活。让我们一起拥抱一个新世界吧,一个有 AI 陪伴的新世界。

{%}

赛博宠猫 作者:药药 ML


精选留言

  • piracle

    2024-01-09 12:16:57

    这是机器的发音吧,很不舒服。