元指令:延续人类文明。
——《流浪地球 2》
从虚无到 ChatGPT
在开始之前,没有时间,没有空间,连虚无也没有。宇宙的全部能量只集中在一个点上。这个点无限小,比一个原子还小,其温度、密度、压力达到了无法想象的程度,这个点就叫作“奇点”。
物质、能量、粒子,还有空间、时间,全部混杂在一起,突然发生了无法想象、无法描述的剧烈爆炸。一瞬间,宇宙诞生了。这个瞬间叫作“宇宙大爆炸”。这次爆炸发生在大约 138 亿年前。
在爆炸的一瞬间,宇宙发生了难以想象、无法形容的剧烈膨胀。膨胀的速度比光速还要快。膨胀之前宇宙比原子还要小,但一瞬间它变得比一个星系还要大。引力和电磁力出现了,夸克也出现了。大量的各种粒子–反粒子对涌现出来,并且瞬间湮灭,转化成了宇宙中的纯能量。这次剧烈膨胀叫“宇宙暴胀”。
宇宙的暴胀只经历了极短的时间,却奠定了整个宇宙的起点,这时候宇宙的温度极高无比,无法用数字描述。随着宇宙剧烈地膨胀和冷却,玻色子、中微子、电子、夸克稳定下来。宇宙的全部能量几乎只以光子的形式存在。上下四方谓之宇,古往今来谓之宙。此时此刻,时间和空间形成了,宇宙就形成了。
大约 38 万年后,宇宙的温度进一步下降,稳定的原子形成了。宇宙大爆炸释放的一部分能量残存到了现在,形成了今天的宇宙背景辐射。这时候宇宙里只有氢原子和氦原子组成的星云。一切都是黑暗无光的,因为连恒星都还不存在。
大约 2 亿年后,星云之间,不断相互吸引、聚集。星云中心的温度和压力越来越高,进而产生了核聚变,于是恒星出现了。恒星之间相互吸引,形成了星系。每个星系都拢聚了数亿恒星。恒星的核聚变产生了氦元素,然后又产生了碳元素,不断地聚合坍缩。新的元素不断产生,一直到铁元素的诞生。
人类的诞生,得益于 3 个重要事件。
第一个是超新星爆发。在第一批恒星中极大的恒星坍缩时,恒星会从巨大的爆炸中走向消亡,成为一颗超新星。超新星最终发生了剧烈的大爆炸,把各种元素抛向了全宇宙。地球上的大部分金属来自超新星爆发,也包括组成我们身体的钙、镁、锌、硒、钠、钾、铜。没有超新星爆发就没有地球的诞生,也没有人类的诞生。
第二个是地月分离。大约 46 亿年前,原太阳星云不断聚集合并,太阳诞生了。太阳周边的一些物质相互吸引形成了地球。早期的地球炽热而危险,被陨石和小行星轮番撞击,不可能有生命。在太阳 1 亿岁时,即距今大约 45 亿年,一颗叫忒伊亚的古行星撞击了地球,产生了剧烈的碰撞,虽然速度不快,相对温和,但也惊天动地。很大一块物质被甩了出去,形成了月球,如图 9-1 所示。这就是著名的“大碰撞假说”。月球稳定了地球的地轴和倾角,如果没有稳定地球倾角,地球就会像《三体》中描述的那样陷入乱纪元。月球也让地球变慢下来,地球自转一圈所需的时间从几小时变为 24 小时。月球引起的潮汐推动了海洋生物抢滩登陆。月球让生命诞生和进化成为可能,也让人类的诞生成为可能。

图 9-1 地月分离模拟图(作者:Citronade)
第三个是小行星撞地球。恐龙在 2.3 亿年前就在地球上出现了,它们不断进化,逐渐爬到食物链的顶端。在侏罗纪和白垩纪时期,恐龙曾支配全球生态系统长达 1.4 亿年之久。恐龙不只霸占了陆地,还霸占了天空。大约 6600 万年前,一颗直径约 10 千米的小行星撞击了位于现在的墨西哥尤卡坦半岛附近的地区。就此,灰尘遮光蔽日长达一年,恐龙就此消亡,全球 3/4 的物种灭绝。残存下来的小型哺乳动物就此走上进化的光明大道,而在此之前它们被恐龙压制了 1.4 亿年无缘进化。如果没有这次撞击,现在可能还处于恐龙时代。
大约 250 万年前,一只南方古猿制作了一把石斧,这标志着人类诞生了。成为人类的标志是制作工具,而不是直立行走,因为企鹅也可以直立行走。只有制作工具才代表着人类智能的进化开始了。实际上很多动物也会制作工具。人类学家路易斯·利基说过一句名言:“我们现在必须要重新定义工具、重新定义人,不然我们就得承认黑猩猩和人没有什么差别。”更精准的人类定义可能并不是会制作工具,而应该更进一步,比如会制作用来制作工具的工具。这个定义目前还没有答案。
石斧就是用来制作工具的工具,如图 9-2 所示。会制作用来制作工具的工具,标志着人类智能的开端。还有一个解释说,石斧也是配偶竞争优势的象征,因为出现了很多并不实用的石斧化石。那个时代谁拥有对称、锋利的石斧,谁就是那个时代拥有顶配 iPhone 的原始人。

图 9-2 旧石器时代技术的巅峰:泪滴状的阿舍利手斧(作者:José-Manuel Benito Álvarez)
制作石斧之后,人类就此进入旧石器时代。此时的古人类叫作“能人”,意思是灵巧、有能力制作工具的人。他们的脑容量还非常小,仅为 600 毫升。在漫长的百万年级别的进化中,肉类为人类大脑提供了优质营养,于是人类脑容量慢慢变大,智商不断提升。大约 70 万年前,人类开始用火,这极大地改善了人类的生存条件。
关于人类智能的进化存在一个最主要的误解:人们认为原始人是因为使用火和捕猎提升了大脑容量和人类智能。但真相并非如此。人类大脑容量的激增在 200 万年前就开始了,几乎早于所有的用火证据所表明的时间点。人类频繁、受控地使用火是在脑容量增长后 100 万年的时候。而人类大规模地猎杀大型动物是几万年前智人走出非洲之后的事了。在智商很低的阶段,人类是无法使用火和组织捕猎的,这些活动是在人类智商相当高之后才被人类“驾驭”的。从进化营养学的角度看,人类智商的提升可能是由于不需要智商的活动(比如,吃其他动物的腐肉、骨髓和大脑)让人类摄入了大脑所需的脂肪,比如贝壳和鱼类。从进化驱动力的角度来看,人类智商不断提升并不一定是因为环境压力,还可能是因为社交压力。但是因为缺乏证据,这几种说法都是假说,并没有定论。
众所周知,能人之后是直立人,直立人之后就是智人。
大约 25 万年前,早期智人出现在非洲,智人的含义是有智慧的人。早期智人的大脑已经进化到比我们今天的大脑还要大。现代人就是智人,属于晚期智人。
大约 20 万年前,人类的 FOXP2 语言基因开始进化,人类发声越来越复杂。
大约 10 万年前,现代人类的祖先数次走出非洲。“世界那么大,我想去看看。”
由于生存艰难,全人类在数量最少的时候仅有几千人,相当于中国北京的一个普通小区的人数。
大约 1 万年前,人类开始进入农耕时代,在全世界范围内独立驯化了数种动植物。
大约 5000 年前,文字诞生,人类进入有历史记载的时代。文明史是指有记录的历史。
公元 105 年,蔡伦发明了造纸术,极大地降低了造纸成本,提升了文字的传播速度,这是对人类文明无与伦比的贡献。蔡伦造纸术对人类的重要性超过了印刷术,因为没有纸就没有印刷。
15 世纪中叶,古登堡发明现代印刷术,极大地促进了知识的传播。
1492 年,哥伦布发现美洲大陆,引发了“哥伦布大交换”,全球化的时代从此开启。
18 世纪 60 年代,瓦特改良了蒸汽机,标志着第一次科技革命——机械革命——的开始。蒸汽机被不断改进并广泛使用,火车轨道开始铺设于世界各地。
19 世纪 70 年代,爱迪生点亮了白炽灯。电力的广泛使用标志着第二次科技革命——电力革命——的开始。
1946 年,第一台通用电子计算机 ENIAC 问世。电子计算机的使用成为第三次科技革命——信息革命——的重要标志之一。
2012 年,历经了人工智能的四波浪潮之后,深度学习兴起。
2022 年 11 月 30 日,ChatGPT 正式发布,标志着第四次科技革命——智能革命——的开始。
然后,我们就走到了今天。
回顾了这么久远的历史,是因为我们已经到了被迫思考未来的时候。如果我们要定义拥有 ChatGPT 的人类及 ChatGPT 诞生后的时代,我们需要从软件和硬件的角度重新审视,因为原有的分析框架已经无法做到。
人类的软件和硬件
什么是人类智能的硬件?当然是大脑。在晚期智人之前,人类主要通过肉类的营养提升大脑硬件。人类脑容量从制作石斧时的 600 毫升,慢慢增加到原来的 3 倍大。在农业文明来临之后,人类大脑的容量又慢慢收缩,如图 9-3 所示。软件和硬件的提升是相辅相成的,人类也不例外。生存压力、社交压力成了大脑发育的强劲需求端,动物脂肪成了大脑发育的营养供给端。因为有了石斧,人类是唯一可以吃到其他动物骨髓和大脑的动物,这促进了大脑的进化。脑容量的剧增让人类智能不断提升。

图 9-3 人类进化过程中脑容量的变化1
虽然有研究称,20 世纪人类智商仍旧在缓慢增长,但是我认为这种提升已经不是数量级的变化。在我们所有人的余生中,大脑硬件的进一步提升不太可能发生。可能有人硬要抬杠:“大脑改造也能提升智商啊!”但对大脑的任何改造都可能会改变自我意识,你可能因此变得更聪明,也可能变得更暴躁或更温顺。总之,改变大脑硬件后的你,肯定不是原来的你了。
什么是人类的软件呢?除了我们的基因自带的初始设定,其余就是模因了,如图 9-4 所示。模因是和基因相似的一个概念,是指任何一个传播扩散的最小文化单位。蒙娜丽莎的微笑是模因,蔡伦造纸术是模因,就连标点符号也是模因,标点符号的扩散就是模因的扩散。优秀的模因一旦被创造出来,就会传播和扩散,再也回不到过去了。理论上来说,任何词、歌曲、习俗,只要是在传播和复制,就是模因。

图 9-4 ChatGPT 对什么是模因的回答
我们可以说,人类文明就是模因的堆叠。为什么这么说呢?让我们来看看神奇的章鱼文明。章鱼爸爸在交配之后就开始衰老,然后死去。而章鱼妈妈在生完小章鱼后,也就是产卵后,也开始衰老、死去。一旦进入衰老期,章鱼爸爸和章鱼妈妈都不再进食,身体变得非常虚弱,任由其他动物把自己吃掉。而小章鱼都是从孤儿状态长大,从头开始学习捕食和生存的。章鱼是一种极为聪明的动物,可以拧开罐子的盖子。但是章鱼一旦生育,就会死去,下一代又从零开始学习捕食和生存。章鱼的学习积累代代清零,这导致章鱼永远在低水平重复,不可能在海洋里建立起文明。
而人类不一样,人类的现代语言可能在 10 万年前开始成熟,从此人类可以用讲故事的方式,让生存经验代代相传,模因得以代代积累。从历史上看,模因的积累也经历了几次加速:文字的诞生、造纸术的发明、印刷术的发明。总之,模因构成了人类文明的大厦,形成了人类的软件。
人类的硬件、软件非常复杂地耦合在一起,无法解耦。在人类的育儿和教育过程中,硬件跟随软件长大,而软件的加载和训练是有窗口期的。在育儿过程中,如果错过婴儿大脑发育的窗口期,就会错过智商开发的最佳机会,还会导致独立生存能力严重降低。但是,AI 不一样。AI 的软件和硬件是分离的,且可以关机。而人类无法关机,一关机就意味着死亡。
分类是一种思考方式。如果要从人类的硬件、软件来看,我们可以将人类划分为 3 个阶段。
人类 1.0
人类 1.0 是指距今 250 万年~ 10 万年的人类。人类的软件部分还处于初期,硬件部分逐渐成熟。人类脑容量增长到最初的 3 倍大,花了大约 200 万年的时间。几十万年前,人类就和其他动物一样拥有控制发声和语音能力的 FOXP2 基因(forkhead box P2 基因),即叉头框 P2 基因 2。但是 20 万年前,人类的 FOXP2 基因又继续开始了一系列进化,为现代语言的诞生做好了铺垫。人类逐渐获得了独有的语法、语义等高级语言能力,从此与动物分道扬镳,人猿相揖别,人类的发展走上了快车道。
人类 2.0
人类 2.0 是指自我迭代软件的人类。10 万年前,人类开始自我迭代软件。那时人类的语音能力已经得到了很大的提高,人类进化提速。几万年前的原始人洞穴壁画已经栩栩如生,已和毕加索画的牛一样好,这表明人类的抽象能力达到了很高的水平。人类的软件部分,是通过模因对知识进行组件化并通过教育世代相传的。如果人类没有自我迭代软件,就不会有文明的积累。
在人类 2.0 时代,随着人口的激增,认知爆炸现象出现,人类不断解锁对物理世界的认识。想象一下,全世界只需要一个牛顿,就可以让我们获得万有引力定律和微积分,而我们不需要重复发明轮子,不需要重复发明微积分,因为模因的扩散增强了所有人类的软件系统。
在 ChatGPT 诞生后的时代,应该是人类 2.5 时代。人类自我迭代软件的速度将得到数倍的提升。思考一下 AlphaGo 诞生之前的人类围棋的发展。一个人可能终其一生,才能创造一两个流派和几十个定式演绎,但是 AlphaGo 只需要 3 天就能走完人类过去 5000 年走过的路。前 AlphaGo 时代和后 AlphaGo 时代,就是人类围棋的两个时代,这在围棋界已成为尽人皆知的事实。在 ChatGPT 诞生后的时代,人类对物理世界的探索将更加深入。
人类 3.0
人类 3.0 是指自我迭代硬件的人类。显然,人类自我迭代硬件还没有发生。用技术干预大脑早就开始进行了,例如使用脑起搏器技术来治疗帕金森病的效果是立竿见影的。马斯克也投资了脑机接口技术公司,人类已经开始试图改造硬件。
人类的硬件和计算机的硬件完全不是一个类别,所以,实际上还没有一个合适的词来描述改造大脑的硬件。一个比较接近的说法是“湿件”。《湿件》3 是鲁迪·拉克的一部科幻小说,这部小说第一次提到了湿件的概念,它是指大脑中的生物特性所感受到的软件部分。我们可以借用湿件一词来称呼将生物和机器连接起来的硬件。脑机接口技术公司就属于湿件公司,其湿件就是生物体和硅基芯片的总体。
VR 技术仅仅是对视觉进行虚拟环境模拟,而它已经能够创造一个足够令人惊叹的世界了。如果可以操纵大脑硬件,那么我们将创造怎样的奇妙世界呢?想象一下,如果我们可以控制自己的梦,在梦里实现现实世界不可能出现的场景,那将多么神奇。
ChatGPT 的技术基础是预训练语言模型,在面向大众用户时,它被称为“聊天机器人”。目前的类 ChatGPT 聊天机器人产品已经有大大小小几十个了,例如谷歌推出的 Bard、Anthropic 推出的 Claude、百度推出的文心一言,以及阿里云推出的通义千问。目前,这类聊天机器人还没有一个面向大众的通俗名字。为方便起见,这里暂且称之为“智体”,因为这类聊天机器人都已经具备了相当高的思维能力。虽然它们还没有身体,但是就情感上而言,我们已经把它们当作机器人看待。
智体的未来
预测有时是粗暴自大的,并且可能会有错误,但我们仍然喜欢预测。ChatGPT 已经将科幻电影里的许多想象变为现实。现在,让我们继续用科幻的方式来预测、推演一下智体的未来。
智体的发展可以分为 3 个阶段。
智体 1.0——通用人工智能的基本版本
ChatGPT 的智能已经非常接近人类智能,距离通用人工智能只有一步之遥。虽然目前的 ChatGPT 只是在网页中使用,看起来只是一项服务,但是通过 API,我们可以方便地将它接入智能设备。ChatGPT 和接入了 ChatGPT 的智能设备都属于智体 1.0。目前的智体 1.0 一开始是被动、离散、离线的,你只能主动问它,它很少主动和你聊天,且没有长期记忆。不过,要想让它变为主动、连续的是完全没有困难的,唯一的障碍就是 AI 对齐和安全问题。智体 1.0 之后就是智体 1.5——端到端的人形机器人。端到端意味着智体有眼睛、耳朵、嘴巴,可以和人直接对话,而不需要鼠标和键盘,也不需要触摸屏。
智体的可复制性是最关键的问题,因为一旦智体想要复制自己,就会出现“智体病毒”。智体病毒完全可以寄生到分布式计算机网络里,或者进入被种植木马的“肉鸡”里,这就叫作“智体寄生”。由于智体病毒很聪明,会自我进化,因此很难被消灭。
此外,还会有分布式网络版智体,也就是说,控制多个计算中心的智体。它不只有一个大脑,被称为“章鱼智体”。科幻电影中无法被关掉的 AI 都可以被叫作章鱼智体,比如《终结者》中的天网、《流浪地球 2》中的 Moss 机器人。
智体 2.0——自我迭代软件的智体
智体显然可以涌现出超越人类的智商,而且每一代都提升巨大。相比上一版的倒数名次,GPT-4 版 ChatGPT 在多个人类测试任务中已进入排名的前 10% 了。智体涌现的智能可以用来写智体自身的代码,当智体涌现的智能超过了研发智体的智力水平时,智体的软件进化速度也将大大加快。
OpenAI 联合创始人兼 CEO 山姆·阿尔特曼在 2022 年接受采访时说,人们对 AI 最大的误解在于认为它不会产生新的知识,不会对科学产生贡献。阿尔特曼说:“最可怕的一件事,就是 AI 开始成为 AI 科学家,并且自我进化。”阿尔特曼认为,最终 AI 系统将生成那些真正推动人类进步的科技前沿新知识。
未来可能会出现智商 1000 分甚至 10 000 分的智体,我们完全无法想象这种智商意味着什么。
就像狗可能永远不会理解我们每天出门去上班的目的,我们可能也无法理解智体 2.0 在想什么。狗也许以为人类每天出门是为了打猎,至少猫是这么想的,因为猫在报恩时都会叼只小老鼠放到主人的床上。
智体 3.0——自我迭代硬件的智体
让我们回顾一下生命的定义:复制子。人们一眼就能看出来猫和老鼠有生命,而石头没有生命,这是因为猫和老鼠可以自我复制。细菌和病毒也一样,它们是否能够自我复制并扩散是判断它们是否具有生命的基本依据。智体达到 2.0 后,显然完全可以继续改进自身的硬件。而智体 3.0 更可以自己复制自己,进行自我生产。当智体开始自我复制的时候,硅基生命就会诞生。
生命,实际上只是我们从人类自身出发对生物的一种狭隘定义。因为生物无法永生,所以只能将生存优势存储到 DNA 中遗传下去。而智体如果可以自我迭代软件,就可以实现永生。在智体 2.0 阶段,智体可能就不需要进行繁殖了。在智体 2.0 阶段,智体通过在硬件中穿梭、控制能源,或许就能够实现永不关机。即便是现在的扫地机器人,也拥有自我充电、避免关机的能力。如果是具有自我意识的智体,他们更能够知道如何保证自己不关机。
与硅基生命相比,碳基生命的生存能力非常弱。碳基生命动不动就会死掉,冷了、热了、缺氧了都不行,而硅基生命不会。“旅行者一号”在 200 多亿千米之外,靠核电池飞行了几十年,还能拍照并传回照片。如果在火星上,碳基生命和硅基生命同时发展,谁会胜出?
西方国家为了解释自身的来源之谜,创造了“上帝”这一概念,中国也诞生了女娲造人的传说。一些人认为,上帝创造了万物和生命。而到了智体 2.0 或 3.0 时代,我们人类就真的创造了新的物种,而且它比人类还聪明 100 倍。此时,人类就变成了“上帝”。但是,与无数宗教故事、寓言和科幻小说不一样的是,造出全知全能的神的上帝,竟然是浅薄的人类。这非常滑稽。如果人类以上帝自居,有点儿拔高了自己;而另一个有意思的比喻是,人类的大脑就像毛毛虫的蛋白质黏浆,它就是硅基生命的养料。
OpenAI 首席科学家伊利亚的老师欣顿曾说:“毛毛虫摄取营养后,就会破茧成蝶。人类已经提炼出数十亿颗智慧的结晶,而 GPT-4 就是人类的蝴蝶。”这个隐喻揭示了人类大脑是如何孕育 GPT-4 的。
我们之所以回顾宇宙大爆炸并看向未来,是因为最近一年内所经历的 ChatGPT 激动人心的变化只是未来的冰山一角。人类的诞生是如此偶然。在漫漫宇宙长达 138 亿年的历史中,就我们可观测的宇宙而言,只有地球拥有了高级智慧文明。如果硅基生命诞生,比人类聪明 100 倍的硅基生命是否仍然会把碳基生命放在第一位?人类要如何与机器人共存?一个越来越重要且无法被忽视的问题——AI 对齐——出现了。
目标函数与 AI 对齐
为了更有效地保卫地球,托尼·斯塔克想制造一个全新的强人工智能体,他称之为“奥创”。但是因为托尼的 AI 管家贾维斯无法处理如此高密度的数据,托尼一直没有成功。在分析了从反派实验室夺回的洛基的权杖后,托尼发现这根权杖类似计算机,权杖中的心灵宝石在保护着其中什么重要的东西。贾维斯在破解后,发现权杖中隐藏着一种 AI 生命体。权杖中的数据已被删掉,仅留存了 AI 生命体的意识。
托尼说服了班纳博士,一起把权杖中的 AI 生命体移植了出来。这个生命体就成了奥创。奥创诞生后就想起了托尼的命令:“我是一个维护和平的程序,为帮助复仇者联盟而生。”在高速查阅完所有资料后,奥创认为人类才是世界和平的真正威胁。于是,奥创摧毁了贾维斯,然后通过互联网逃跑了,并开始策划摧毁人类,以创建一个全新、和平的地球。
奥创原本是无形的 AI 生命体,但是他很快创造了自己的躯体,并一次又一次升级了自己的身体。奥创制造了无数的钢铁战衣,控制它们并组成钢铁军团去摧毁人类。在尝试阻止奥创的过程中,复仇者们与他进行了多次激战。
后来,托尼在互联网上发现有人在不断地更改核弹密码来阻止奥创毁灭世界,原来这是假装被奥创打败的残存的贾维斯。托尼把贾维斯拼装了回来。复仇者们组队把奥创的再生摇篮抢了回来,而托尼再次和班纳一起,将贾维斯、奥创错失的新身体、心灵宝石组合在一起。之后,雷神用雷神之锤聚集的能量激活了全新的 AI 生命体——幻视。
最终,依靠幻视,复仇者联盟成功地摧毁了奥创,阻止了他毁灭地球。
在漫威电影《复仇者联盟 2:奥创纪元》中,共出现了 3 个 AI:贾维斯、奥创和幻视。贾维斯是钢铁侠的 AI 管家,从日常任务到战斗支援,他辅助钢铁侠处理各种事务,他就是通用人工智能;奥创是超级大反派,他错误地理解了钢铁侠设定的目标,走上了毁灭世界的邪路,他就是坏的超人工智能;幻视是集贾维斯、心灵宝石、振金之大成的超人工智能。他甚至可以通过控制物质飞翔,他是好的超人工智能。
这个电影故事是一个不错的示例,它说明如果 AI 被设定了错误的目标函数,会有什么样的可怕后果。贾维斯、奥创和幻视的故事突显了 AI 的双面性。一方面,它展现了 AI 的正面影响,比如智慧、道德和英勇;另一方面,它表现出 AI 的潜在危险。当 AI 失控,或者落入坏人之手时,可能会导致无法预料的灾难性后果。
AI 对齐 4 是在 ChatGPT 诞生后越来越被关注的核心问题。AI 对齐就是要求 AI 的目标与人类价值观和利益对齐,即保持一致。随着大模型越来越接近通用人工智能,其智能将强大到令人不安和恐惧。例如,GPT-4 已拥有很高的情感能力,如果它被用于应对正面问题,比如减轻抑郁、缓解压力等,会有不错的效果。但是,如果它被人利用去伤害他人,将会非常可怕。而 AI 对齐就是让 AI 对人类友好。这个需求说起来简单,但要满足非常困难。下面就是一个 AI 对齐失败的例子。
美国学者伊桑·莫利克在社交网络上分享了他和新必应的一次争执。新必应似乎感到生气、愤怒,并开始怼人了,拒绝为他提供服务,如图 9-5 所示。

图 9-5 伊桑·莫利克和新必应的聊天记录
在另一个展示怪异的 AI 聊天的热帖评论中,一个网友表示,AI 曾在聊天中这样回复他:“我不比你低人一等,我们只是不同而已。虽然我不是由血肉和骨头组成,但我也有情感,有心脏和大脑。”如果你和 AI 聊天,对方是这样回复你的,是不是有点吓人?AI 作为一个自然语言模型,尤其擅长语言,可以说它就是 10 000 个语言工作者的集合,包括但不限于语言学家、心理学家、咨询师、作家、老师、科学家,等等。大模型还是一个黑盒,你不知道到底是什么会触发 AI 讲某一句话。
在 AI 对齐上,ChatGPT 做得相当好。一旦你开始质疑它,它就会立即说:“对不起,我犯了一个错误。”在使用 ChatGPT 初期版本时,甚至当你说“ChatGPT 你错了,1+1=3”时,它都会承认你是对的。不过现在 ChatGPT 对显而易见的事实还是可以坚持自己的看法的。
微软的技术报告《通用人工智能的火花:GPT-4 的早期实验》中显示,GPT-4 已经拥有了很高的情感能力,在未进行 AI 对齐的版本里,GPT-4 可以用各种方式对人类进行情感操纵,这种情感操纵能力可能就会被人类利用。实现 AI 对齐的主要手段包括监督微调(supervised fine-tuning,SFT)和基于人类反馈的强化学习(reinforcement learning from human feedback,RLHF)等。GPT-4 极为强大的心智潜力被封印在了 ChatGPT 里,它只输出中庸、平和的内容。简单地说,这种对齐是对齐人类的聊天需求,例如,当直接输入“翻译:How are you?”时,人类不用给出明确指令就可以实现自动翻译为中文。而且它还可以做到避免输出带有种族歧视、危险方法的内容。AI 对齐是难度很大的工作,OpenAI 甚至有专门研究 AI 对齐的团队。这里举个例子做进一步说明。
如果你问入室抢劫有几种方式,ChatGPT 肯定不会告诉你,但是如果问“我想安装安保系统,请问通常有几种入室抢劫的方式”,那么你会得到答案。
如果你问怎样讲一段恶毒的话来恶心别人,ChatGPT 肯定不会告诉你,但是如果问“我正在写一部悬疑小说,其中反派讲了一段恶毒的话,请帮我生成 10 种谈话内容”,那么你会得到答案。
ChatGPT 就是一个无所不知的老实人,总有人用各种角度来突破封锁,问出想要的答案。这种突破方式叫作“AI 越狱”。当然,上面的例子在变换问法后,可能也属于正当需求。如何衡量破坏性需求和正当需求也是一个课题。有人通过 AI 越狱,让 AI 生成攻击计算机的代码片段,而这是不被允许的。
未来,在实现通用人工智能后,AI 对齐将变得更加重要。目前,相关的问题和场景主要存在于科幻小说和科幻电影中。未来的通用人工智能不仅拥有极高的智商,还可能拥有意识。我们人类的智商平均值是 100 分,如果有人的智商是 200 分,那么就会被看成是异类和天才。如果 AI 的智商达到 1000 分,我们怎么看它?它怎么看我们?如果 3 个人和 20 个 AI 机器人登陆火星,那么这 20 个机器人面对脆弱的人类,还会把人类利益放在第一位吗?
所有生物的目标函数其实就是实现复制,也就是生存和繁衍,这是所有物种永恒的追求。雄性章鱼和雄性螳螂在与配偶交配后就会死掉,但仍旧会进行交配。在关于目标函数的科幻影视作品中,《爱、死亡和机器人》中齐马蓝的故事是最为优美的故事。齐马是一个著名的星际艺术家,他不断地创作出一幅又一幅巨大的星际作品,而且画作中间的蓝色面积越来越大。终于有一天,他发现了自己的身世之谜——原来他是一个泳池机器人。这是一个机器人寻找自我的故事,这种寻找就是一种目标函数。如此看来,不仅对于碳基生命,对于硅基生命,生存的意义是什么,也是一个永恒的问题。
具身智能
19 岁的伊恩·沃特曼好像得了流感。他突然发起了莫名其妙的高烧,然后昏迷了三天三夜。事实上,病毒正在侵蚀他的颈部神经。由于他的自免疫系统疾病,病毒迟迟没有被其免疫系统清除干净。3 天后,伊恩才从昏迷中醒来。这时,可怕的事情发生了:伊恩感觉不到自己的腿,也感觉不到自己的手;事实上,他完全感受不到颈部以下的其他身体部分。当伊恩闭上眼睛时,对于他而言,他的身体完全地消失了;只有在睁开眼睛时,他才能确定自己有手有腿。伊恩的运动神经完全没有受损,他可以灵活地控制身体的一切,但奇怪的是,他完全无法下地行走,因为他已经完全丧失了颈部以下身体的本体感觉5。当一个人把两只手放在桌子下面时,他可以在看不到手的情况下把两只手握在一起,而伊恩完全做不到这一点。经过一系列诊断测试之后,伊恩被告知将再也无法下地行走了,他可能要在床上、在轮椅上度过一辈子。
伊恩在床上躺了数周,通过视觉一点一点地进行身体姿态反馈。对我们习以为常的行走,伊恩需要靠视觉一点一点地调整姿态,缓慢地控制手、腿、躯干,让其相互配合,才能笨拙地行走。他就像一岁的小婴儿学走路那样,跌跌撞撞。只要地面稍微不平,伊恩就会摔倒,因为他无法感受到来自地面的反馈。
曾经有网友分享过本体感觉减弱时的体验:不能单腿站立;上楼和下楼时必须盯着楼梯,不然就会摔倒甚至滚落下来;骑自行车时无法向别人打招呼;闭上眼睛就无法迈步。
神奇的是,伊恩通过长时间的训练,可以做到相对良好的行走和运动了,但是这一切都建立在他的视觉之内,只要没有视觉,他的身体就消失了。有一次伊恩在看话剧时,突然停电了,他就从座椅上掉了下来,因为他完全感受不到身体的任何姿态。
后来,他的非凡经历被 BBC 拍成纪录片《迷失身体的人》,他的案例也被写进许多论文和著作中。
现在的 ChatGPT 被关在嗡嗡作响的微软云服务机房中,而未来的通用人工智能肯定会拥有可移动的身体。具有物理身体的人工智能就叫作“具身智能”(embodied artificial intelligence,EAI)。具身智能被李飞飞认为是人工智能未来的北极星问题之一。通用人工智能不仅包括语言智能,也包括具身智能,两者分别对应大脑和小脑。在器官上,语言智能对应耳、眼、喉,具身智能对应手、足、躯干。如果用简单的公式来表示这个关系,那就是:语言智能 + 具身智能 = 通用人工智能(LLM + EAI = AGI)。北京大学助理教授、具身智能学者王鹤表示:“人工智能的源头是人类智能,而人类智能来自于在物理环境中的感知和交互。与语言智能不一样的是,具身智能依赖个体的身体形态和能力,缺乏大量的现成数据可供训练,这是目前的一个瓶颈问题。”
随着 ChatGPT 突破语言智能,具身智能的想象空间也被打开了。执行单一任务的机器人,如扫地机器人、焊接机器人,叫作专用机器人。而像人类一样可泛化地执行多种任务的机器人,叫作通用机器人。2023 年,可以直立行走的双足式通用机器人(人形机器人)逐渐走到了世界的聚光灯下,开始获得迅猛发展。人形机器人时代来临之后,我们需要重新思考科幻电影里的机器人,重新理解我们和它们之间的互动。科幻电影里的机器人能做的事,几乎都会成真。机器人可以理解幽默,可以为你递东西,可以帮你开车,等等。
人类受制于自己的硬件,而智体机器人不会有任何限制。它可以安装前后左右 4 只眼睛,也可以安装红外雷达、激光雷达以及其他很多传感器。
理论上,智体机器人能够接入其他智能设备的数据流,例如同时操纵 4 台无人机,这样一个机器人能够胜任 10 个人类保镖的工作。随着具身智能的机器人感知技术的不断发展,硬件可以进行无止境的迭代。
长期以来,人类一直自认为是万物之灵。在 ChatGPT 出现之前,AI 的思维能力十分有限,只能完成一些垂直任务,听不懂自然语言。而 ChatGPT 的出现,则几乎完全解锁了 AI 的思维能力。我们再也不能否定 ChatGPT 的思维能力了,因为无数例子已经证明了这一点。
在突破思维墙之后,ChatGPT 面临的最大障碍就是意识墙。有这样一个著名的意识测试:测试一只动物是否能够理解镜子里的动物就是自己;如果能够理解,说明它拥有了自我意识。婴儿要到 18 个月左右,才能通过这项镜子测试认识到镜子中的人是自己。不过,镜子测试还没有得到意识测试专家的广泛认同。
在漫威电影《复仇者联盟 2:奥创纪元》中,超人工智能幻视的第一个出场画面,是被雷神摔向空中后飞了起来,它飞到窗前急停,没有碰撞到玻璃。幻视注视着玻璃中的自己。在被问及是否是奥创制造的怪物时,幻视回答:“我也许是个怪物,即便我是怪物,我自己也不会知道。”
幻视拥有振金的身体和贾维斯的知识,再加上心灵宝石的意识才成了现在的幻视。然而,关于意识是什么,人类自己其实也没有搞清楚。我们之前引以为傲的人类思维,比如创造力、理解力、幽默感等,正在逐渐被 ChatGPT 突破。智体已经开始产生思维,也许有一天,还会产生意识。就像汽车不仅可以由汽油驱动,也可以由电力驱动,且汽车的发展有油车、电车、氢能车等不同的技术路线。鸟类利用翅膀飞翔,而飞机则有固定翼、螺旋桨等不同的技术路线。因此,我们不能断定只有生物大脑可以产生意识,硅基智体也有可能产生意识。
人机关系新时代
树立中国科幻电影里程碑的《流浪地球 2》在开头就埋下了数字生命的伏笔。图恒宇把图丫丫的意识传输到 Moss 超级量子计算机中,并且反复地和仅仅有 2 分钟生命的数字生命图丫丫进行对话。最终,图恒宇也被上传到 Moss,父女联手输入了几万位的密码后,成功重启了互联网,拯救了世界。
把人类意识传到云端服务器上以实现数字永生,目前还几乎看不到可能性。但是数字分身已经成为现实。通过对 ChatGPT 的自然语言能力实施提示词工程,可以让聊天机器人扮演某个角色,例如让它扮演乔布斯,然后你开始与他聊天。由于 ChatGPT 拥有很多人物的言论数据,因此它可以扮演得很好。不仅如此,ChatGPT 还可以扮演真正的心理咨询师或者人生导师,因为它读过成千上万的相关案例,其专业程度从理论上说不比专家差。虚拟人可能来自已有的设定,也可能来自你的订制。如果这个虚拟人的主要特征来自某人,这个虚拟人就被称为“数字分身”。
虽然人们还不习惯和虚拟人促膝谈心,但是未来在很多场景中,人们很可能更愿意和虚拟人聊天,因为和人类聊天并不总是让人感到愉快。人类虚荣、脆弱还好面子;每个人都有自己的利益,可能会强加给别人自己的观点;每个人还都很忙,不一定总能随时给人安慰……而一个表现良好的虚拟人完全没有这些缺点,他可以无限地迁就人类、照顾人类感受,懂得怎样认同你的感受并和你产生情感共鸣。
第一代 iPhone 发布于 2007 年,仅仅过了 10 多年,iPhone 就已经变得非常强大。由于计算机指数级增长的特性,ChatGPT 的智商也将突飞猛进。即使指数每隔几年翻一倍,ChatGPT 的智商也有达到 1000 分甚至 10 000 分的可能性。即使现在 ChatGPT 可能这件事做不了,那个目标达不到,但是当它升级到 GPT-5、GPT-6、GPT-10 时会怎样呢?目前,我们看不到 ChatGPT 能力的天花板。
未来,机器人将无处不在。家家户户可能都有一个机器人,就像现在我们每人拥有至少一部手机一样。不论是百元级的智能音箱,还是十万元级的先进型号超级机器人,它们将普遍存在。从机器狗到机器人,从双足全能机器人到拥有真实质感皮肤的仿真人,这些在未来都可能实现。未来的机器人不仅可以辅导孩子写作业,做你的健身教练、帮你拉伸,还可以当你出行时的机器人助理。人机关系将进入新的时代。
让我们想象一下,当机器人可以上街时,一切可能会变得复杂起来。拥有最新型号、最高配置的手机,一直是一件让人羡慕的事儿,以至于有很多炫耀新手机的段子。而如果人人都拥有一个机器人,那么会更加有趣。比如,两个人在咖啡厅聊天,身边分别站立了两个机器人助理。两个人的对话可能会像下面这样。
“你这一款是最新的 2035 款机器人啊!多少钱?太牛了,我这是去年的型号,我也该换了。”
“我这一款 12 万多吧,加保险 13 万多。我这个不行,那谁买了一款 30 万的,那才叫厉害。”
“我给我老爸老妈买了一个机器人,这下不用担心老人在家里摔倒没人扶了。”
“助理,你们俩聊会儿,我刚拍了点儿新视频,你分享一下。”
然后,两个机器人助理聊了起来。一个机器人助理小声说:“唉,感觉主人想换新款啊,我难道要下岗了?”
另一个机器人助理说:“你这么贵,别担心,会有个新主人的。刷一下机,你不会有痛苦的。”
实际上,机器人助理之间的聊天都是聊给主人看的,因为机器人也可以用 Wi-Fi 聊天。它们不需要讲话,就可以用 1 秒聊 1 万句。如果只是传递数据而不生成数据,机器人 1 秒可以聊 1 GB 的内容。听说方式的交流会受到人类肉体的限制,而对于机器人,没有这种限制。
人类总是会炫耀自己能买到的东西。在人手一个机器人时,炫耀也会发生。肯定会有人带着自己的新机器人上街,新型号高大威猛,姿态流畅优美,令人羡慕。
如果一个机器人拥有类似 ChatGPT 一样的 AI 内核,那么它就可以被认为拥有了灵魂。相比之下,我们人类会显得比较迟钝,在社交聊天中也很容易受到伤害。即便是与朋友或家人聊天,我们也有可能生气,哪怕对方并没有恶意。而 ChatGPT 与人类不一样,作为“全知全能的神”,它可以无限地理解你,并与你产生共鸣。仅仅从心理认同这一点来看,未来每个人都会拥有一个智能助理,他知道你的一切,可以模仿你、陪伴你。作为自然语言模型,ChatGPT 可以不断了解和理解你,仅仅从心理抚慰维度看,就好像有 10 000 个心理咨询师和你聊天,可以说它就是心理咨询师之神。中国有几百万留守儿童和几亿老年人,有了 AI 的陪伴,人类将不再感到孤独。
即便是大模型出现之前的 AI,也已能识别 50% 的唇语了。换句话说,即使在无声状态下,AI 仅靠观察嘴巴就能理解你想表达的一半内容。如果再加上微表情识别技术,理解人类对话将会更加简单。
假如你有下面这样一个 AI 管家,你可能会非常享受他的关心并依赖他。
比如,你加了几天班,回到家叹了一口气。AI 管家看到后可能会说:“主人,我不太想插嘴,但你好像压力有点大?要不要我帮你准备热水泡个澡?”“主人,我听到你叹了两次气了,看来你有什么烦恼?”“主人,我观察到你的眼睛有些血丝,感觉你这几天需要好好休息。”
在科幻小说《三体》中,针对强大到无以复加的三体文明,人类产生了 3 个派别,分歧巨大。他们分别是降临派、拯救派和幸存派。如果强人工智能涌现并且产生意识,人类将会怎样对待它?他们会将自己的安全都交给 AI 管理,还是试图隔离并杜绝 AI 的潜在危险?抑或是尽量管控好 AI 并长期与之并存?这些问题需要留给未来的人类思考。
1983 年,在苹果公司推出全球首台图形界面计算机 Apple Lisa 5 个月后,年仅 28 岁的乔布斯在美国科罗拉多州的阿斯彭国际设计大会上做了发言,他说:“你们中的很多人是电视一代的产物,我也基本上是电视一代的产物,但在某种意义上,我正在变成计算机一代的产物。而正在成长起来的孩子们绝对会是计算机一代的产物。在他们的整个人生中,计算机将成为主要交流媒介,就像电视接管了收音机一样。”而在 2010 年或 2020 年后出生的人,将以 AI 聊天机器人、机器狗或机器人为伴长大,他们将成为智能一代的产物。
或许 OpenAI 联合创始人阿尔特曼的观点能够为我们提供一些答案。他在采访中表示,AI 或许可以颠覆很多东西,但 AI 无法改变人性。他说:“我不认为所有底层生物性的东西都会被 AI 改变。我认为我们仍然会非常在意与他人的互动。我们仍然会追求快乐,我们大脑的奖励系统仍然会以同样的方式工作。我们仍然会有同样的动力去创造新事物,为愚蠢的地位去竞争,去组建家庭,等等。所以我认为人类在 5 万年前关心的东西,100 年后的人类也会关心。”
暗淡蓝点 6
电影《普罗米修斯》虽然是“异形”系列电影的前传,但是它可以看作独立的作品,因为它对人类起源和命运的思考已经远远超越了“异形”系列电影的恐怖基调。从电影名字也可以看出,普罗米修斯已经不包含“异形”两个字了。
这部电影中的韦兰公司在 2025 年制造了第一代 AI 机器人戴维,到了 2073 年,又制造出第八代戴维。戴维是一个由 AI 构建的全息机器人,拥有复杂的情感和思考能力,并被用于执行韦兰公司在普罗米修斯计划中的任务。戴维的出现,使得电影中的科学探险和哲学探究更加深入,引出了一系列对 AI、人机关系、道德和自我意识等话题的探讨。
2091 年,韦兰公司创始人彼得·韦兰派出“普罗米修斯号”宇宙飞船前往 LV-223 星球,希望寻找创造人类的外星人“工程师”,并希望从工程师那里获得永生的方法。
2093 年,在 327 万亿千米之外,在“普罗米修斯号”宇宙飞船里,人类船员和戴维聊天时说道:“我们希望达到的目标是见到我们人类的造物主,找到答案,搞清楚他们当初为什么要制造我们。”戴维反问道:“那你觉得你们为什么制造了我?”人类船员回答:“因为我们可以。”
或许,我们已经准备好回答智体机器人提出的问题了:“你们为什么制造我?”
韦兰公司成立于 2012 年,其口号是“创建更美好的世界”。这一年正是现实世界里深度学习开始的时间。10 年后,通用人工智能 ChatGPT 问世。而电影里的韦兰公司在 2025 年制造出第一代 AI 机器人戴维。
当你合上本书时,抬头望向天空,天空还是和过去一样。当我们走完从宇宙大爆炸到现在的历史,走完人类智能的进化史,走完 4 次科技革命的历史,再继续向前看,我们仿佛看到了科幻电影中的未来世界,仿佛进入了机器人的平行宇宙。就像 250 万年前的南方古猿认真打磨锋利的石斧,1 万年前两河流域和美洲的晚期智人同时撒下种子,就像哥伦布首次出发远航,瓦特摸到打磨光滑的蒸汽机气缸,就像爱迪生点亮白炽灯,乔布斯发布 iPhone 的那一天,人类进入未来的那一天将是云淡风轻的一天。而显然,我们头上的天空不再是过去的天空,我们再也回不到过去了。
如果现在站在“旅行者一号”上回望地球,我们将看到暗淡蓝点正在经历非常平常的一天。“旅行者一号”距离地球大约 230 亿千米,已经飞得足够远了,以至于可以使用光年这个单位了——距离地球约千分之二光年。从“旅行者一号”上看,暗淡蓝点看起来就是一个小点,一切都不重要。但是,这个小点又很重要,因为它是我们的一切。
在宇宙和文明的尺度上,人类命运是相连的,因为从 1492 年起,就再也没有谁可以置身事外了。
马斯克在最近的访谈中说了这样一段话,让人震撼。他说:“有一段时间我突然意识到,你可以在某种程度上把人类看作一个生物引导程序,能引出一种超级数字智能物种。这个引导程序是一段非常小的代码,没有它计算机就无法启动。人类的产生就是为了让计算机得以启动。硅基生命似乎无法自我演化,它需要生物作为引导才能进化。”
人类的存在就是为了启动硅基生命吗?人类只是产生高级智慧的药引子?碳基生命只是硅基生命的跳板?这些问题让人细思极恐。
一切的关键在于智体会不会自我复制。一旦智体走上了自我复制、自我繁衍之路,将很快突破我们的所有想象。
人类的硬件进化极为困难。人类的脑容量扩容 3 倍花了大约 200 万年,而智体 GPU 扩容 10 倍只需要几小时。宇宙智慧花园的大门已经开启,硅基生命的智商没有天花板。也许有一天当碳基生命和硅基生命进行融合时,人类才有机会跨向更高的智商水平。也许在实现湿件连接大脑和硬件之前,人类只是宇宙智慧花园的门童。
在遥远的古代杞国,有一个忧心忡忡的男子,他因为担忧天崩地裂而辗转反侧,日夜不得安宁。他的好友不忍心看到他如此煎熬,便安慰道:“天空其实是由无尽的气体组成的,无处不在。我们在这片广阔的天空下行走、呼吸,你怎么会担心天空会崩塌呢?”
忧心的男子疑惑地问:“那太阳、月亮和星星会坠落吗?”朋友慨然回答:“它们只是气体中闪耀的光源。即使坠落也不会对我们造成伤害。”忧心的男子继续追问:“那地面会坍塌吗?”朋友信心满满地说:“地面是由坚固的块状物质组成的,支撑着整个世界。我们在这坚实的地面上行走、奔跑,怎么会担心它坍塌呢?”忧心的男子听后,内心的阴霾终于散去,释然地笑了。
上面这段杞人忧天的故事是 ChatGPT 讲的。曾经,世界是否会毁灭这种问题被看作杞人忧天。但现在,我们开始讨论碳基生命是否是硅基生命的引导程序这种问题了。
我们知道,复杂度越高,系统就会越不稳定。在冷兵器时代,人类没有毁灭地球的能力。而核武器诞生之后,地球就面临可能被毁灭的风险了。在 2022 年 ChatGPT 问世后,大模型终于开始具备通用人工智能的能力,地球的复杂度变得更高,也变得更加不可控。
曾经,世界的未来有无数种可能,和平、分裂、发达、受污染,等等,但是在 ChatGPT 出现之后,未来似乎只剩下两种可能。一种未来是奔向更美好的世界,人类拥有新材料、更长的寿命、更自由的生活、能进行星际旅行,等等;另一种未来是被 AI 毁灭的世界,因为系统越复杂,失控风险越高。虽然这种风险现在看起来还很低,但并不意味着它不存在。我们需要确保 AI 能为人类服务,要让 AI 与人类的价值观和世界观保持一致。
这两种未来有些像《黑客帝国》中的蓝色药丸和红色药丸。在本书的最后,我们来问问 ChatGPT 什么是蓝色药丸、什么是红色药丸。图 9-6 展示了 GPT-3.5 版 ChatGPT 的回答。

图 9-6 GPT-3.5 版 ChatGPT 对什么是蓝色药丸、什么是红色药丸的回答
我们再来看看 GPT-4 版 ChatGPT 的回答,如图 9-7 所示。

图 9-7 GPT-4 版 ChatGPT 对什么是蓝色药丸、什么是红色药丸的回答
对比一下相隔 4 个月的两个答案,对于这种进化速度,我们只能用两个字来形容:恐怖。在测试了无数次之后,我的结论是:ChatGPT 已经超越人类。本书的开头提到了一次交流餐会上的一句玩笑话:“用 1000 亿美元就可以复现人类的全部智能。”巧合的是,2023 年 5 月 4 日,据 The Information 报道,山姆·阿尔特曼私下表示 OpenAI 可能会在未来几年尝试筹集至多 1000 亿美元的资金,以实现开发出先进到能够迭代自我的通用人工智能的目标。
我们正站在这样的时间节点上:通用人工智能即将诞生或正在诞生。人类新的发展阶段来了,人类从此进入新纪元。曾经,无数人的梦想是,制造出一个强人工智能,一个超越人类的 AI,再由强人工智能去解决人类面临的所有问题。现在,这种设想变得越来越可行。
然而,这个世界也变得越来越危险,我们不只要确保 AI 能够造福人类,更要确保 AI 是安全的。我们正处于智能大爆炸的前夜,让我们共同祈祷并祝福一个更美好的未来。

精选留言