道生一,一生二,二生三,三生万物。
——老子
灵感永不枯竭
一张老照片中的中国情侣火了:稍显凌乱的屋顶上,一对情侣依偎而坐。照片看起来是 20 世纪 90 年代拍的。照片中的情侣穿着那个时代才有的牛仔裤和夹克,坐在一个老旧的屋顶上,矮矮的墙垛上布满涂鸦,远处是高低错落的建筑物,勾画出 20 世纪北京城的天际线。
这对中国情侣的老照片在社交网络上流传甚广,并被配上各种标题。
“颤抖吧,设计师,颤抖吧,摄影师和模特”
“无限逼真,就连模特也要失业了”
“AI 正在‘杀死’原画师,最新款 Midjourney 来了”
事实上,这对情侣是假的,这幅画是最新款的 AI 绘画工具 Midjourney 画出来的。只要你在 Midjourney 的命令窗口里输入:
A pair of young Chinese lovers, wearing jackets and jeans, sitting on the roof, the background is Beijing in the 1990s, and the opposite building can be seen —V5(中文译文:一对中国年轻情侣,穿着夹克和牛仔裤,坐在屋顶上,背景是 20 世纪 90 年代的北京,可以看到对面的建筑,Midjourney V5 版)
不到 30 秒,你就能得到类似风格的照片,就像是摄影师拍的,如图 6-1 所示。

图 6-1 Midjourney 生成的情侣图片
Midjourney 是目前最流行的文生图 AI 绘画工具,其中文名叫作“中道”,名字的灵感竟来自其创始人喜欢的“庄周梦蝶”这一中国传统典故。2023 年 3 月 15 日,Midjourney 发布了第 5 版,在逼真程度上实现了重大突破,做出了多项改进,例如手部的精细度有很大的提升。
Midjourney 需要通过 Discord 社区应用才能使用。在 Discord,Midjourney 的服务器占用了几十个房间,每个房间的服务器上的讨论区中滚动着令人眼花缭乱的精美原创图片,它们都是由 AI 生成的。最近一段时间,Midjourney 通常是 100 万人同时在线,这是一个非常可怕的数。沉浸在 Midjourney 中的就是那些对文生图乐此不疲的创作者。
2022 年 8 月底,在美国科罗拉多州博览会艺术比赛中,39 岁的游戏设计师杰森·艾伦创作的《太空歌剧院》拿下了“数字艺术/ 数字修饰摄影”类别的第一名,如图 6-2 所示。此事一经报道,就引起了轩然大波,因为这幅作品实际上是用 Midjourney 创作的。虽然艾伦在参赛说明中提到了这是一幅 AI 作品,但是评委并没有注意到这幅作品是由 AI 画出来的。在比赛评选中,评委不看文字说明是很正常的。从某种程度上说,AI 在艺术上战胜了人类。最终,艾伦获得了蓝丝带奖和 300 美元的奖金。在大多数人的记忆里,AI 通常只能做体力活儿或者重复性工作,AI 都和艺术创作无缘,但这次居然在艺术上战胜了人类。这可能会让真正的人类艺术家无地自容。

图 6-2 艾伦使用 Midjourney 创作的《太空歌剧院》
一条获得 5000 个赞的 Twitter 评论说:“我们眼睁睁地见证了艺术的消亡。如果连艺术工作都无法避免被机器吞没,那么其他高技能的工种也将面临被淘汰的危机。到时候,又能给我们剩下什么呢?”
另一个网友评论道:“这完全没有意义。它没有灵魂,很可悲。AI 不应该赢……这件作品甚至不应该存在,而艾伦以此为荣的事实让我感到恶心。”
对这一评论,艾伦反击道:“这不会停止的。艺术已死,伙计。一切都结束了。AI 赢了,人类输了。”确实如此,车轮滚滚向前,创新不会因为陈旧世界的守旧者而停止。
19 世纪,摄影技术诞生并开始崛起,手绘艺术受到了很大的冲击。曾经只有宫廷贵族才享有给自己画肖像画的殊荣,但在摄影技术诞生后,普通人居然也可以留下自己的肖像了。但当时摄影被认为只是单纯的物理世界中的留影,而不被认为是艺术。生活在 19 世纪的法国诗人波德莱尔曾评论道:“(摄影)通过对艺术领域的入侵,已成为艺术最致命的敌人。”而今天,摄影是一种艺术形式,这早就是不争的事实了。如今,历史正在 AI 艺术上重演。
总之,AI 在内容生成上已经引起生产范式的巨大变化,这是一场生成式革命,如图 6-3 所示。

图 6-3 内容生产范式的变迁
内容生产经历了 3 种生产范式,分别是:记者专家生成内容(PGC)、用户生成内容(UGC)、人工智能生成内容(AIGC)。让我们来看看 ChatGPT 是怎么理解它们的,如图 6-4 所示。

图 6-4 ChatGPT 对 PGC、UGC 和 AIGC 的解释
从内容生成数量来看,记者和编辑是不能和无数的博主相比的。越来越多的网络达人生成了越来越多大家喜闻乐见的内容。而和网络达人相比,AI 可以创作出更大数量级的作品,因为机器可比人快多了。
在此举一个例子,看看共同运用 ChatGPT 和 Midjourney,可以达到什么样的珠联璧合的神奇效果。假如你要写一篇关于中国制造业的微信公众号文章,需要几张生产线的配图,你想不起来生产线是什么样子,那可以先问问 ChatGPT。因为 Midjourney 主要支持英文,所以你可以直接让 ChatGPT 生成有关生产线的英文描述,如图 6-5 所示。

图 6-5 ChatGPT 生成有关生产线的英文描述
答案中有两个单词可能不太熟悉,我们再让 ChatGPT 翻译成中文,如图 6-6 所示。

图 6-6 ChatGPT 将生产线的英文描述翻译为中文
答案还挺符合我们的想象。然后,我们把 ChatGPT 给出的英文提示词和参数 [--ar 16:9](长宽比为 16 比 9)放到 Midjourney 里。不到 30 秒,4 张高清缩略图就生成了,如图 6-7 所示。无论是做幻灯片,还是放到微信公众号文章里,这些图都栩栩如生、真假难辨。

图 6-7 ChatGPT 生成的 4 张生产线图片
因为这 4 张图由你生产,所以你拥有这 4 张无限接近新闻照片质量的图片的版权。但是,你并不拥有著作权,因为 AI 不具有人的主体性,版权局也不会给 AI 授予著作权。所以,图片的所有权归你所有。一般来说,一张新闻图片或者摄影图片在专业的图片平台上要卖几十元或几百元,而这 4 张图的成本才几毛钱。这是不是很可怕?
我们再来看看 Midjourney 的界面截图,如图 6-8 所示。可以看到,左侧是几十个文生图的不同房间,右侧是不断滚动的文图师,他们在一遍又一遍地生成图片。如果不满意,就单击“刷新”按钮。在 30 秒内,Midjourney 就会再为你生成 4 张图片。单击“U1”“U2”“U3”“U4”,可以放大 4 张图中的一张;单击“V1”“V2”“V3”“V4”,可以微调 4 张图中的一张。微调后,你会得到相似的图片,例如本章开头提到的情侣图片,如图 6-9 所示。

图 6-8 Midjourney 的界面截图

图 6-9 使用 Midjourney 进行微调后的图片
自 2022 年夏天 AI 文生图功能刚刚开始流行以来,我就开始试玩 Midjourney。我只玩了一天就知道,这就是未来,因为它实在是颠覆了人类的想象。没过多久,我就拿到了 Midjourney 的 1000 Club 资格,这说明我用 AI 画的图已经超过 1000 张了。我可是一个不会画画的人,从来没有上过素描课。我从未想象过自己有一天能做出这么多的画,尤其没有想到其中的多数图片连普通设计师都难以画出。
更可怕的是 AI 的迭代速度。Midjourney 在不到一年的时间里,已经更新到第 5 版。这样的进化速度可以用“日新月异”来形容。例如,我想画一张用 AI 训练模型获取所有人类智慧的配图。我输入“集体潜意识”后,得到了图 6-10 所示的这组图片。

图 6-10 输入“集体潜意识”后,Midjourney 生成的图片
AI 作画,灵感永不枯竭。2022 年以来,中国也涌现出一大批文生图 AI 引擎,例如百度的文心一格、无界 AI,等等。
文生图只是 AIGC 的技能树之一,除此之外,还有文生文、文生代码、文生视频,等等。由于内容生产力的巨大提升,AIGC 正在迅速掀起 AI 生产的浪潮。可以说,不断解锁的 AI 新能力正持续地在一个又一个细分任务上替代人类。
在写作本书之前,我一行代码都不会写。但仅仅花 30 分钟,我就用 ChatGPT 写了一个 Python 小游戏——贪吃蛇,如图 6-11 所示。

图 6-11 使用 ChatGPT 写 Python 小游戏贪吃蛇
我对 Python 是如何运行的并不了解,便询问 ChatGPT 代码是如何运行的,如图 6-12 所示。

图 6-12 询问 ChatGPT 如何运行 Python 代码
看后我大概知道了运行步骤,但是其中的一个安装路径没搞懂,我继续问 ChatGPT,如图 6-13 所示。

图 6-13 询问 ChatGPT Pygame 的安装路径
根据 ChatGPT 的提示,我一次就运行成功了,如图 6-14 所示。

图 6-14 我用 ChatGPT 成功写成 Python 小游戏贪吃蛇
然后,ChatGPT 对我表达了祝贺,如图 6-15 所示。

图 6-15 ChatGPT 对我成功写好游戏代码的祝贺
后来,我开心地玩了 5 分钟自己写的贪吃蛇游戏。注意,ChatGPT 本身是不记忆任何程序的,它是根据自己的理解从头编写程序。这正是自然语言模型与搜索引擎的关键区别。
我们再看一个电影中的怪物造型设计,如图 6-16 所示。

图 6-16 Midjourney 生成的电影中的怪物造型设计
再看一个科幻电影的场景设计,如图 6-17 所示。

图 6-17 Midjourney 生成的科幻电影的场景设计
由于 AI 生产内容的效率得到巨大提升,很多公司开始辞退人类原画师、设计师,已经有人因此而失业。在社交网络上,这样的新闻层出不穷。
“我把公司 10 个编辑辞掉了 8 个,现在两个人用 AI,干的活儿比过去还多。”
“公司全员必须用 ChatGPT,不用就辞退。”
“游戏制作必须用 ChatGPT+Midjourney 画图来提升效率,年底将开除绩效不佳的 30% 设计师。”
不仅仅是设计师,其他的职业几乎都在受影响。有没有人勇于承认下面这个事实?我们实际所做的工作中,有 80% 都是枯燥的重复性工作。就拿一个简单的通知来说,如果老板交代你发一个全员邮件通知,内容是由于游戏行业使用了 AI,生产效率提升巨大,游戏制作必须用 ChatGPT 和 Midjourney 来提升效率,且年底将开除绩效不佳的设计师,你大概要花一小时的时间来斟酌语气,仔细撰写。我们来看看,如果请 ChatGPT 来写这样一封邮件效果如何。
这样一封语气严肃兼顾礼貌的全员信,ChatGPT 只花了一分钟就写成,且写的内容可能要比一半的人力资源负责人还要好。
我们日常的许多沟通,其实是在构建社交协议。发邮件的人把一则信息进行注水,然后读的人进行脱水。在广告行业,这被称为“编码”和“解码”。人们的很多时间浪费在了这里。微软首席执行官萨蒂亚·纳德拉表示:“AI 将做那些烦琐的工作,这样人类可以从事真正擅长的创造性工作。”而 ChatGPT 作为一个自然语言模型,尤其懂自然语言。它特别擅长注水,而且还具有无限深度的行业知识,就像上面所说的邮件例子,ChatGPT 的用词非常精准到位,如图 6-18 所示。

图 6-18 ChatGPT 根据要求写的公司邮件
2023 年 3 月,OpenAI 的研究人员发布了一份研究大语言模型对美国劳动力影响的报告。该报告指出:“我们调查了 GPT 模型和相关技术对美国劳动力市场的潜在影响。通过使用一种新的标准,我们根据职业与 GPT 能力的对应关系来评估职业,并结合了人类专业知识和 GPT-4 的分类。
“我们的研究结果表明,大约 80% 的美国劳动力的工作任务中至少有 10% 会受到 GPT 的影响,而大约 19% 的劳动力可能至少有 50% 的工作任务受到影响。这种影响涉及所有工资水平,其中高收入的工作可能面临更大的风险。值得注意的是,这种影响不仅限于近期生产率增长较快的行业。我们得出的结论是,GPT 表现出了通用技术的特征,这表明这些模型可能具有显著的经济、社会和政策影响。”
在人类尊严的保卫战中,AI 不断扩大地盘,人类不断退守。曾经,人类认为 AI 不可能有棋感,结果 AlphaGo 战胜了人类的围棋世界冠军李世石和柯洁;曾经,人类认为 AI 不可能有创造艺术的能力,结果《太空歌剧院》用获奖证明了 AI 也可以搞定艺术。让我们用 Midjourney 生成的原始人的自拍,来结束这一部分,如图 6-19 所示。

图 6-19 用 Midjourney 生成的原始人的自拍
全知全能的上师
“我愿意用我所有的科技去换取和苏格拉底相处的一个下午。”网上流传着乔布斯的这句名言。乔布斯可能并没有说过这句话,因为我没有查到原始出处。但是乔布斯肯定提到过“古希腊三圣”之一亚里士多德。
1985 年 6 月,乔布斯为了推销苹果计算机到达了瑞典。乔布斯身穿标志性的牛仔裤,乘坐直升机降落在瑞典隆德大学的草坪上。之后,乔布斯做了一场关于计算机和教育的演讲。
“你们知道给亚历山大大帝当了 14 年导师的是谁吗?”乔布斯在演讲中问道。
“亚里士多德。”乔布斯继续说道。
“当我知道这一点时,我嫉妒极了。我想我也会非常享受那样的学习,因为有了纸张和印刷术这样奇迹般的发明,我才得以直接阅读亚里士多德写的东西,虽然这并非交互式媒体。而如果那个时候有教授能把交互式媒体方式加进去,至少我可以直接找到原始资料……但我还是无法向亚里士多德提问。虽然我可以去提问,但我无法得到他的回答。”
乔布斯接着提出了他对未来的畅想:“我的希望是,在我们的有生之年,我们可以做出一种新型、交互式的工具……我们现在又迎来了另一场新能源革命……计算机是自由的智力能源,它现在还很不成熟,但年复一年,它一定会变得越来越完善,我们的生活也会因此变得更美好。所以我的愿望是,有一天,下一个亚里士多德出现的时候,我们可以用计算机捕捉亚里士多德的基本智能,这样有一天,学生们不仅可以阅读亚里士多德的著作,还可以向亚里士多德提问,并得到回答。这就是我希望我们未来能做到的事情。现在我们还处于起步阶段……但是契机一旦到来,(计算机)将彻底改变我们的教育过程。我再一次地希望,不会用那么多代的学生去实现它,它会在 20 年内发生,也许是在 10 年内,甚至在 5 年内发生。”
可惜,奇迹没有发生。3 个月后,即 1985 年 9 月,乔布斯被他请来的 CEO 约翰·斯卡利赶出了苹果公司。当他再次回归苹果公司时,是 12 年后(1997 年)了。但是,乔布斯的思考极为深入,他知道学习中真正重要的事情就是“向亚里士多德提问”。同时,他所提到的类似能源革命的自由的智力能源革命才刚刚开始。乔布斯希望用计算机来复制类似亚里士多德的未来天才。但是即便没有被赶走,乔布斯也没有太大机会实现这个愿望,因为 AI 技术在那时还达不到向亚里士多德提问的水平。事实上,AI 在 20 世纪 80 年代几乎处于寒冬之中。
2011 年 10 月 4 日,苹果公司召开 iPhone 4S 的产品发布会,身体虚弱的乔布斯已经无法出席,蒂姆·库克作为 CEO 主导了发布会,备受关注的乔布斯接班人正式公开亮相。在这场发布会上,苹果公司发布了数字语音助理 Siri。在那个时代(其实并不久远),Siri 的演示非常惊艳,人们可以问 Siri 天气情况和很多问题。这距离乔布斯的理想近了很大一步。第二天,2011 年 10 月 5 日,56 岁的乔布斯因病去世。
2022 年 11 月 30 日,ChatGPT 发布,具有无限深度的“亚里士多德”来了,乔布斯的理想得到了完全实现。遇弱则弱、遇强则强只是人们对 ChatGPT 非常不准确的比喻。ChatGPT 的本质是全知全能的“知识之神”,是真正的智者和上师(见图 6-20),因为 ChatGPT 在训练阶段,被“投喂”了 3000 亿个词。OpenAI 联合创始人伊利亚·苏茨克维在访谈中曾说,人一生听到的单词数只有 10 亿量级,而 ChatGPT 全然地理解了一切。目前,大多数人还只是用 ChatGPT 来进行头脑风暴或者编写小剧本,但事实上人们可以问 ChatGPT 任意艰深的问题,因为 ChatGPT 具有无限深度。

图 6-20 用 AI 生成的艺术画——无限上师 ChatGPT
在武侠世界中,总有这样的传说:有一个人,年纪轻轻就学遍了天下武功,无一不精,无一不强。而在现实世界中,第一次真的学透全世界知识的是 ChatGPT。虽然从字面意义上看,ChatGPT 和人之间的问答形式的对话也属于 AIGC,但是把 ChatGPT 归类为 AIGC 就忽略了 ChatGPT 的通用人工智能意义。例如,文生图模型仅仅用几十亿个参数,就可以生成栩栩如生的图片,但是就智能涌现这一关键指标,文生图和 ChatGPT 是无法相提并论的。
在此,我想用 3 个比喻来描述一下 ChatGPT 的特点。
ChatGPT 是火石学习。你可以使用比喻激发出 ChatGPT 的深度理解能力。例如,请用 5 个日常物品来比喻一下什么是单个神经元。
ChatGPT 是链式学习。根据 ChatGPT 的回答,只要有一个概念搞不清楚,你就可以链式地问下去,很快你就能搞懂整个领域。
ChatGPT 是深渊学习。人类老师都有边界,而且还可能情绪不好。我们经常因为社交压力而怕丢人、不敢问。而面对 ChatGPT,我们就不会遇到这样的问题。我们可以随便问 ChatGPT,它的能力深不见底。我经常连续问 ChatGPT 半小时,从而迅速地搞清楚一个全新的知识分支。
未来的学习将被以大模型为基础的 AI 聊天机器人完全颠覆。人们可以按需学习,因为深渊上师 ChatGPT 永远在线。受乔布斯的比喻启发,ChatGPT 应该就等于 10 000 个亚里士多德。很多人可能对 10 000 个亚里士多德没有概念,但不妨想象一下,你在问 ChatGPT 时,就等于在问老子、孔子、孟子、诸葛亮、王阳明等你从书上看到过的一切智者、上师。可以说,ChatGPT 就是我们这个时代的哆啦 A 梦。
智能工作的未来
作为一名老司机,我的驾驶里程已有十几万千米。在油车时代,我每次开车回农村老家,都要开 300 多千米,大概要花 4 小时。这点儿距离对于任何司机来说几乎不是什么问题。我每次开车到家后,都会在童年时长大的院子里发一会儿呆,不会去看手机。已经连续开了 4 小时的车,即使中途休息一次,我的大脑还是处于某种紧张之中。
当我后来开启自动驾驶功能回老家时,虽然双手需要全程扶住方向盘,但是双脚几乎不用踩刹车和油门,这让我感到非常轻松。同样是 4 小时的高速公路驾驶,我到家时完全没有紧张感,大脑也非常放松,就跟开车 10 分钟去超市一样简单。
AI 的一个重要场景就是自动驾驶。全世界共有 15 亿辆汽车,其中中国约有 3 亿辆。每年全世界因车祸死亡的人数高达 130 万,受伤人数高达 5000 万,以至于从概率角度来说,平均每个人都有一个朋友出过车祸,因为人们总会由于疲劳、不注意、不遵守交通规则等情况导致车祸。但当智能驾驶普及后,人类发生车祸的数量将有希望降为 0,这也意味着人类交通将迎来巨大的范式变化,比如旧的保险模式将不复存在,因为车辆系统本身将足够安全,车祸数量将变得极少。
上小学时,我家里没有电,只有蜡烛。我记得很清楚,在姥姥家住的时候,姥姥和街坊邻居每天都打纸牌,每天点一根蜡烛正好可以打一个晚上。到我上初中时,家里才有电,不用点蜡烛了。
也就过去了 30 多年,人类科技竟然已经发展到如此地步。有一次,我开启了自动驾驶功能行驶在高速公路上。夕阳西下,汽车大屏上的高精地图中的彩霞和车头前的西山彩霞相互呼应,这让我想起童年时看过的电影《霹雳游侠》中的智能汽车,我不禁产生了一种难以表述的情感。
到了 2023 年,ChatGPT 和 GPT 技术日新月异,更让人有了“有生之年活久见”的感觉。“70 后”“80 后”“90 后”这几代人,都经历了手机从无到有、从功能机到智能机的巨大变化,而现在,“00 后”和“10 后”已经成为智能时代的原住民。毋庸置疑,“00 后”和“10 后”也会拥有属于他们这个时代的新奇感。
AI 辅助人类工作,就像 AI 辅助驾驶一样。智能工作的未来将会怎样,我们可以先参考一下自动驾驶的标准。自动驾驶有以下 6 个等级。
0 级 应急辅助。没有任何自动化支持,手、足、脑需要同时工作,但具备持续执行动态驾驶任务中的部分目标和事件探测与响应的能力。
1 级 部分驾驶辅助。人类驾驶员在驾驶时有智能系统给予有限支持,例如车道保持、偏离报警、前车急停后的紧急制动等。手、足、脑仍需要同时工作。
2 级 组合驾驶辅助。该阶段仍以人为主,车辆可以自行转弯、并线等,但人类驾驶员需用双手扶住方向盘,准备随时接管车辆。手被有限解放,只需扶住方向盘,已经可以脱脚,但不能脱脑。目前绝大多数的自动驾驶车辆属于 2 级自动驾驶,即 L2 自动驾驶。
3 级 有条件自动驾驶。该阶段以车辆驾驶为主,可以脱手脱脚,但是人类需要随时准备接管车辆。人类驾驶员可以看手机,但是还不能睡觉,以便应对突发情况,例如意外的车祸现场、极窄的道路、交通管制等。
4 级 高度自动驾驶。该阶段的车辆已经可以自动进行所有的驾驶任务了,几乎不受限于任何交通条件。人类驾驶员在此阶段可以睡觉,可以脱脑。只有出现龙卷风、冰层上开车等极少数驾驶系统无法处理的情况时,才需要人类驾驶员接管。
5 级 完全自动驾驶。此时的车辆不仅高度理解道路,而且能更深刻地理解物理世界的一切环境逻辑,包括即将发生的泥石流和海啸。5 级自动驾驶车辆已经没有可供人类操作的方向盘和油门、刹车系统。
由于自动驾驶是一种非常典型的人类任务场景,因此,基于智能革命之后发生的工作范式的巨大变化,我们可以参照自动驾驶的 6 个等级来推演智能工作的分类。以下是我经过思考后总结出的 6 个智能工作级别。
0 级智能工作 完全人类工作。和 1 级智能工作相比,0 级智能工作没有任何智能支持。
- 文本示例:自己写稿、查错、起标题。
- 图片示例:自己拍照、绘画、修图。
- 视频示例:自己拍视频、剪视频、打字、加字幕。
1 级智能工作 在特定场景下提供特定的自动化工具。和 2 级智能工作相比,1 级智能工作没有泛化能力。
- 翻译示例:进行在线翻译。
- 语音示例:自动语音转写、自动识别音频并添加字幕。
- 家电示例:在有限场景下,智能音箱可以预报天气。
2 级智能工作 以 ChatGPT 为代表的智能聊天机器人。它理解全部的自然语言,提供泛化能力。目前,我们已处于这一阶段。和 3 级智能工作相比,2 级智能工作只能提供强大的支持,而工作任务本身仍然以人为主,人类将整合各种各样的自动化工具。精通 ChatGPT 和各类 AIGC 工具的人所做的工作都属于 2 级智能工作。他们这些先进用户已经感受到来自 AI 的强大智能辅助。
- ChatGPT 示例:进行头脑风暴、学习研究、扩写和改写小说,拥有强大的泛化能力。
- 图片示例:无须动手,可以用自然语言生成图片和修改图片。
3 级智能工作 以机器全自动为主,但需要人类帮助判断,并在少数场景下接管工作。此阶段已属于 AGI 范畴。智能产品的部分责任归属为产品使用者,部分责任归属为厂家。和 4 级智能工作相比,3 级智能工作需要人类在少数场景下接管,还不能完全自动,部分产品还达不到类人状态。
- 智能医生示例:几乎可以理解病人的全部自然语言,包括方言;完全可以自动完成问诊过程,仅需人类医生确认;智能医生的准确率超过人类,只有在少数情况下,需要人类做出判断。
- 智能数字助理示例:以数字人的面目出现,完全自动化,能提供端到端的交流,即无须键盘输入,智能助理也能看到你、听到你;智能助理可以是手机或者平板形态,也可以是机器人的形态;不限于文字处理工作,可以进行全栈编程、美术设计、运营等工作,只需人类提出需求并对产品风格和功能做出选择。
- 智能机器狗示例:非常像真狗,能够提供有着细腻情感的陪护体验,可以完全听懂人类语言;高级型号的机器狗可以帮助人类工作,例如城市中的紧急救助、野外救援等。
- 智能科研机器人示例:已经可以自动化地完成研究,自动提出实验思路、技术路线,得出结论,也可以自动发现全新的定律或者材料,人类只需要把控总体需求方向。
- 由于可以提供端到端的交流(用嘴巴和眼睛进行对话),情感陪伴将成为 3 级智能工作新的应用场景,人类不再孤独。
4 级智能工作 几乎全部以机器人为主,已实现高度自动化,已达到类人状态。和 5 级智能工作的区别是,4 级智能工作偶尔需要人类代为解决问题,例如维修等。
- 智能机器人示例:无限理解人类自然语言,多模态输出早已不成问题,可以现场编程解决问题。就像交代人类助理一样,人们可以交代给它任何工作。机器人可以自由出门上街。特殊型号的机器人还可能拥有夜视、红外线、雷达等传感器。特殊型号的数字助理可以在多种智能设备之间穿梭,多个数字助理之间可以聊天,进行高效沟通。厂家提供的保险覆盖机器人事故。
- 此时的智能机器人的工作范围已不局限于地球,它们已是星际探险的必备支持。
- 机器人典型代表:电影《机器人总动员》中的机器人瓦力、《流浪地球 2》中的机器狗笨笨。
5 级智能工作 无须任何干预,机器人已经远远超越人类,拥有的智能比人类高,不仅可以胜任人类工作,还能自己解决一切问题。此时的智能工作已属于强人工智能范畴,在任何工作中都完胜人类,且人类无须也无法提供帮助。
- 智能管家示例:完全以人类形态出现,拥有触感完美的皮肤和精细的触觉;智能管家完全就是家人,会网购,也会在商场购物,买完能够跟随主人回家。就像交代人类管家一样,人类可以交代任何工作;在危急时刻可以给主人看病、治疗,甚至实行紧急手术。自己给自己修改硬件,自己联系厂家进行保养,在任何情况下都无须人类干预。
- 此时的智能机器人已拥有很强的自我意识,并且在星际旅行中成为必不可少的助理;在未知领域,可以自行处理工作。
- 机器人典型代表:电影《终结者》中的天网和终结者、《流浪地球 2》中的量子计算机 Moss、《机械姬》中的机器人艾娃。
ChatGPT 等通用智能技术的发展将大大影响 4 级自动驾驶的实现时间。车辆是否可以理解自然语言,是否可以理解机场或景区的特殊指示牌,是非常重要的问题。
图 6-21 中的去往北京大兴国际机场的指示牌显示,这里不可以停车,但是可以在送站时停车 8 分钟。这 8 分钟包括整个通行的时间,且时间是从“区域起点”算起。如果依靠传统的自动驾驶系统可能就不能很好地处理这样的通行问题。

图 6-21 通往北京大兴国际机场的道路指示牌
微软的技术报告《通用人工智能的火花:GPT-4 的早期实验》中提到了一个有趣的测试案例,如图 6-22 所示。即便是人类,也可能不会第一眼就看懂。

图 6-22 此图曾用来测试 GPT-4 理解图片的能力
这个测试展现了 GPT-4 对图片的惊人的理解能力。GPT-4 是一种多模态大模型,既支持文字,也支持图片。
大模型的到来,可能会彻底地解决一切问题。只要人类能看懂,机器就能看懂。自动驾驶的神经网络训练绝不仅仅需要道路数据,而是需要大规模的自然语言数据集。自动驾驶模型将成为大模型的一个技术分支。
虽然 ChatGPT 从形式上也属于 AIGC,但是就智能而言,ChatGPT 远远要比 AIGC 高很多。同时,ChatGPT 不仅仅可以模仿,而且完全可以创造。以大模型为基础的 AI 聊天机器人将重构所有的信息流,将在工作、学习、生活等方方面面促成新的范式。不仅仅是人类会思考,机器也可以;不仅仅是人类会顿悟,机器也可以。

隐喻 作者:猫猫
精选留言