第 5 章 人工智能简史

AlphaGo 告诉我们,没有一个人触及过围棋真理的边缘。

——围棋世界冠军柯洁

1770 年,在奥地利女皇玛丽亚·特蕾西亚的宫廷上,一场震撼人心的表演正在进行。一位名叫肯佩伦的发明家,带来了一台神秘的下棋机器人,肯佩伦称它为“土耳其机器人”(Mechanical Turk)。土耳其机器人身穿奥斯曼帝国时期的传统服装,坐在一个放置棋盘的木柜背后,如图 5-1 所示。这引起了观众的好奇心。

{%}

图 5-1 肯佩伦的“土耳其机器人”(作者:Joseph Racknitz)

肯佩伦打开了这台复杂的机器,只见里面密密麻麻地分布着与时钟内部类似的齿轮和连杆等机械装置,其复杂程度令人叹为观止。在场的一些观众想知道里面是不是藏了真人。于是,肯佩伦打开了前门:没有藏人。随后,他又打开了后门,只见中间是空的,也没有藏人。

肯佩伦声称他的下棋机器人可以下赢在场的每一个人。显然,人们并不相信这一点。特雷西亚的一个顾问首先接受了挑战。肯佩伦给机器插入一把钥匙,上好发条,便启动了机器。随后,机器人的木制机械臂开始缓缓移动,真的开始移动棋子。随着棋子纵横交错,这场棋局愈演愈烈。土耳其机器人的棋艺非常高,不到半小时,人类棋手就败下阵来。所有人都惊叹于土耳其机器人的表现,随即人群中爆发出热烈的掌声。这一年,蒸汽机革命在英国刚刚拉开大幕,人类距离电力革命还有 100 年的时间。

第一次公开演示成功后,肯佩伦在接下来的十年里带着土耳其机器人不断地在欧洲各地巡演,战胜了大多数对手,包括拿破仑和本杰明·富兰克林。在土耳其机器人下棋时,肯佩伦偶尔会盯着棋盘上面的一个木盒子看,似乎土耳其机器人在下棋时的智慧来自这个木盒子。有一位老妇人回忆起她年少时观看土耳其机器人与人类棋手对战时的情形,说令她记忆犹新。她坚信土耳其机器人拥有邪恶的灵魂,以至于完全不敢近距离观看,只肯坐在窗边遥望。在制造业刚刚萌芽、晚上还没有电灯照明的时代,竟然出现如此精妙绝伦的自动机器,这令土耳其机器人一时间成为一个传奇。

我们知道,机器人首次战胜人类是在 1997 年,IBM 的“深蓝”(Deep Blue)超级计算机在国际象棋比赛中击败了世界冠军加里·卡斯帕罗夫。所以,土耳其机器人肯定不是真正的机器人。真相是:肯佩伦让一个顶级棋手藏在柜子里,柜子里有另一块带有磁铁的棋盘,棋手通过这块棋盘得到棋局信息,然后通过齿轮、连杆等机械装置巧妙地控制土耳其机器人的手臂,从而完成比赛。棋手坐在柜子里经过精心设计的滑动椅上,这让棋手能够在肯佩伦向人们展示机器人内部空间时前后滑动,不被发现,如图 5-2 所示。

{%}

图 5-2 土耳其机器人的内部其实藏有顶级棋手(作者:Joseph Racknitz)

不仅西方有很多关于自动机器的传说,中国也有很多。《三国演义》提到,诸葛亮造木牛流马,用于运送军粮、完成突围。《三国志·蜀书·诸葛亮传》曾记载,“亮性长于巧思,损益连弩,木牛流马,皆出其意”。据说,木牛流马是一种半自动的省力装置,它能节省人力和马力,能够运送重达几百斤的粮草行进于山间栈道。这大大缩短了运输时间,为运送军粮立下大功。千百年来,木牛流马一直是一个未解之谜,引发后人长期考证。后来根据考古发现和学者推测,木牛流马其实就是通过一些轮轴、曲柄等装置操控的独轮车,电视剧《三国演义》就展示了独轮车造型的木牛流马。不管怎样,在 1800 多年前能够造出这样巧妙的省力机器,是极为难得的。200 多年后,计算圆周率的数学家祖冲之“以诸葛亮有木牛流马,乃造一器,不因风水,施机自运,不劳人力”,也制造过自动机器。如果诸葛亮和祖冲之生活在今天,必定是研发人工智能的顶级工程师。

很多年后,土耳其机器人的传说仍被不断演绎,成了一个著名的模因 1。例如,它曾经在高分美剧《疑犯追踪》中出现;此外,土耳其机器人也成为亚马逊旗下众包网站的名字。古今中外,人类从未放弃对于自动机器和人工智能的梦想。种种传奇也印证了这种渴求。但是在人类科技的计算机技能树被点亮之前,人工智能几乎是不可能实现的。

康熙四十年,即 1701 年,一封来自遥远东方的信,历经千山万水被送到了大数学家莱布尼茨手中。莱布尼茨展开中国信纸,开始仔细阅读。突然,莱布尼茨被信中的古图惊掉了下巴。这张图叫作伏羲先天六十四卦方圆图。

莱布尼茨是德国著名的数学家,他是不折不扣的天才。正是他和牛顿各自独立发明了微积分。如果你曾经是提心吊胆、害怕微积分考试不及格的人,那么你可能偷偷骂过牛顿,殊不知即便没有牛顿,这个世界上还是会有莱布尼茨微积分。莱布尼茨堪称通才,涉猎哲学、数学、逻辑学、语言学、物理学等多门学科,当时被人称作“17 世纪的亚里士多德”。莱布尼茨一生博学多才,也非常喜欢与人通过书信来往,与别人的通信总数多达 1 万多封。他坚信通过与他人书信交流可以促进思想和知识的交流,进而更好地帮助自己提升研究水平。

莱布尼茨早在 1679 年就已经发明二进制算法系统,但是从未发表过论文。1701 年,莱布尼茨终于投稿了一篇关于二进制算法的论文,但被巴黎皇家科学院秘书长丰特内勒以“看不出二进制有何用处”为由拒稿了。被拒稿之后,莱布尼茨非常郁闷。1701 年 2 月 25 日,莱布尼茨写信给居住在北京的法国耶稣会神父白晋(Joachim Bouvet)并介绍了论文中的二进制算法的主要内容。

白晋是地道的法国人。1684 年,受康熙皇帝的邀请,白晋由法国国王路易十四选派出使中国传教,出发前被授予“国王数学家”称号,入法国科学院成为院士。1688 年,白晋入京城,因精通天文历法而被康熙皇帝留用宫中。康熙皇帝不仅是一个充满好奇心的人,还是系统学习过数学的人。只要政务不繁忙,他每天都要学习两三小时,晚上还会自学。他让白晋给他讲授欧几里得几何和天文历法。在学习数学的过程中,康熙皇帝创造性地翻译了很多数学概念,我们熟悉的一元二次方程中的“元”和“次”就是康熙皇帝发明的。康熙皇帝是中国历史上唯一精通数学的帝王,他不仅会解一元三次方程,也是有数学论文传世的。《清圣祖御制诗文三集》中有一篇《御制三角形推算法论》,就是一篇发表于 1704 年论述三角学的论文。

白晋在 1701 年 11 月 4 日给莱布尼茨回信,信中附上了中国古老的“伏羲先天六十四卦方圆图”(如图 5-3 所示),并指出了莱布尼茨的二进制与《易经》八卦图符号的相似之处。莱布尼茨收到信后欣喜若狂,这极大地加深了他对二进制的思考程度。莱布尼茨非常兴奋地写信给另一位朋友:“我相信这是人类思想的真正字母表,对它的研究将是所有科学和对宇宙理解的关键。”六十四卦的每一条线都是阴线或阳线,莱布尼茨相信这个二进制系统可以用来表示人类的所有知识。

{%}

图 5-3 莱布尼茨收到的伏羲先天六十四卦方圆图。惊奇之处在于,每个小八卦图案上方都写了对应的阿拉伯数字,从 0 到 63。工程师计数往往从 0 开始

受到伏羲先天六十四卦方圆图的启发,莱布尼茨于 1703 年给白晋回信,宣称终于找到了二进制的“极大用途”。同年,莱布尼茨再次投稿,并终于在 1705 年正式发表了修改后的论文:《论只使用符号 0 和 1 的二进制算术,兼论其用途及它赋予伏羲所使用的古老图形的意义》。仅仅读到这篇论文的标题,我就感到震惊。莱布尼茨在论文中写道:

令人惊叹的是,基于 0 和 1 的二进制被发现包含了古代君王兼哲学家伏羲所创造的线段符号的奥秘。伏羲生活在 4000 多年前,被中国人认为是他们的创世神和人文先哲。伏羲创造了几幅由线段符号构成的可表示二进制的图,被称为“八卦”。这里列出了最基本的八卦图及其对应的解释——完整的线段表示 1,断开的线段则表示 0。

伏羲先天六十四卦方圆图让莱布尼茨赞叹不已,他认为在远古时代能达到如此精妙的程度是不可想象的。他在论文中评论道:“这些图可能是这个世界上存在的最古老的科学丰碑。在经历了数以千年的漫长岁月后,它们的含义再次被发现,似乎更令人好奇了。”

非常可惜的是,随着康熙皇帝驾崩,雍正继位后大规模驱逐传教士,中国人学习现代数学的萌芽就又中断了。

如今,德国的莱布尼茨图书馆内仍保存着莱布尼茨所写的长达 10 万页的手稿,其中一篇的标题为“1 与 0,一切数字的神奇渊源”。二进制构成了现代电子计算机的基础,也是现在人工智能最底层的数学语言。二进制和中国古老的太极八卦之间居然有如此奇妙的哲学联系,真是令人惊叹。

2014 年 6 月 7 日,一场别开生面的聊天活动正在英国雷丁大学进行。来自各行各业且包括大学教授、演员等在内的 30 人,正在和一个名叫尤金·古斯特曼的小男孩进行在线聊天。

根据聊天内容,在场的人们逐渐了解到,尤金是一个 13 岁的小男孩,来自乌克兰,他有一只宠物豚鼠,父亲是一名妇科医生。在聊天中,尤金说自己什么都知道,答不上来题目时就转而聊些其他的话题,比如问对方的工作是什么,活像一个爱吹牛的小孩。

有时候,尤金会给出类似这样的回答:“是的,我认为可以通过使用谷歌搜索整个互联网以获取听起来可信的内容,从而构建一个更令人信服的聊天机器人。我希望我有权发表自己的观点。也许,我们谈谈别的什么?你想讨论什么?”

在这 30 个人中,有 10 个人相信了尤金的话,而实际上这全是谎言。这场聊天活动其实是为纪念图灵逝世 60 周年而进行的图灵测试。在场的 30 位人类评委要在 5 分钟的限定聊天时间结束后做出选择:和他 / 她聊天的是机器人还是人类。最终,尤金取得了 10 个人的信任,以约 33% 的成绩通过了图灵测试(图灵测试的标准线为 30%)。

尤金只是一个聊天机器人,代码简单到只有 100 多行,距离通用人工智能还有很大差距。尤金的三人设计者团队精心设计了应对脚本,用预先编写好的、充满幽默风格的模板和脚本误导了人类评委——只需要把聊天时间拖过 5 分钟就成功了。

图灵是英国计算机科学家、数学家、逻辑学家、密码分析学家和理论生物学家,他被誉为“计算机科学之父”和“人工智能之父”。图灵最早思考了机器和智能的关系。他于 1950 年发表的论文《计算机器与智能》(“Computing Machinery and Intelligence”)是人工智能的奠基之作。

这篇论文一开头就旗帜鲜明地提出问题:“机器能思考吗?”在文中,图灵提出了一个非常精妙的推理:我们很难去定义到底什么是思考,如果我们永远去争论思考的定义是什么,那么机器智能很难取得进步。如果一台机器在对话中可以让人类无法分辨它是机器还是人类,那么这台机器就可以被认为是拥有智能的。只要机器表现得像一个人,那么它就有了像人类一样的思考能力。著名的“图灵测试”就此被提出。

图灵测试曾有好几个版本,最终的图灵测试标准版本为:只要 30% 的人类评委在和机器聊天之后,判定对方是一个人,那么这台机器就通过了图灵测试。这一简单且富有哲理的机器智能性评估方法论得到了广泛的认同。在接下来的几十年里,它激励了一代又一代的计算机科学家不断提高机器人的智能水平,去挑战图灵测试。

2016 年,AlphaGo 战胜李世石之后,智能的定义发生了巨大的变化。即使通过图灵测试,也不代表机器拥有很高的智能,例如前面提到过的 2014 年通过图灵测试的聊天机器人尤金。在 ChatGPT 诞生之后,图灵测试可以说已经没有参考意义了。我们来看看,ChatGPT 的情感感知能力已经达到了怎样的水平,如图 5-4 所示。

{%}

图 5-4 测试 ChatGPT 的情感感知能力

ChatGPT 的这种理解能力和共情能力令人印象深刻,恐怕大多数人无法像这样富有爱意地聊天。即便 ChatGPT 承认自己只是聊天机器人,我们也仍然倾向于相信它就是一个人,如图 5-5 所示。

{%}

图 5-5 ChatGPT 的共情能力令人印象深刻

有趣的是,不仅我们会测试对方是人还是机器,机器也会测试我们是人还是机器,如图 5-6 所示。

{%}

图 5-6 ChatGPT 询问用户是否是真人

在科幻电影《机械姬》中,富豪纳森·葛罗斯设计了美女 AI 机器人艾娃。当葛罗斯邀请男主人公来测试艾娃的智能水平时,他的第一个问题就是:“你知道图灵测试吗?”

图灵在二战中参与破解了德军的“恩尼格玛”密码机,为挽救 1400 万人的生命做出了重要的贡献。但是,由于他的同性恋倾向,在当时的社会背景下,图灵无法被法律接受,因此他受到了太多不公对待,还被迫接受“化学阉割”(激素治疗)。1954 年,图灵因不堪受辱,在家中吃掉涂有氰化物的苹果而自杀。直到 2009 年,英国政府才向图灵道歉。

1966 年,为了纪念这位计算机科学的奠基者,美国计算机协会(ACM)设立了一个重要奖项——图灵奖。这是计算机领域的最高荣誉,被誉为“计算机领域的诺贝尔奖”。获奖者必须在计算机领域做出持久且重大的技术贡献。图灵奖和诺贝尔奖的奖金数额几乎一样,都是 100 万美元左右,目前奖金由谷歌公司赞助。开启现代人工智能领域的马尔温·明斯基和发明互联网的蒂姆·伯纳斯−李都荣获过图灵奖。如果图灵能够看到计算机科学如今完全变为现实,尤其是如今的 ChatGPT 已经达到他所梦寐以求的机器智能水平,甚至已经远远超越了图灵测试的基准线,他会多么欣慰和开心啊!

1958 年,在美国国家气象局,一位记者正目睹一次前所未有的科学实验:一台当时最先进的、价值 200 万美元、5 吨多重的商用计算机 IBM 704,像组合式家具一样大大小小散布在整个房间里,操作面板上排列着大大小小的按钮和亮着红灯的小灯泡。平日里承担着美国国家气象局计算任务的计算机,正被用于进行人工智能实验。

康奈尔大学神经生物学教授弗兰克·罗森布拉特基于对人脑神经元信息传递和机器智能的研究,认为机器也可以像人一样有更深层次的思考。于是,在美国海军的支持下,罗森布拉特开始进行实验:将两张分别在左侧和右侧有黑色方块的白色卡片输入机器。起初机器无法进行区分,但是在继续读取了 50 张卡片后,情况发生了变化:机器几乎每次都能正确识别出卡片的左右标记位置。

罗森布拉特向大家解释道:“我给这套计算机系统起名为感知机(perceptron)。我们刚刚通过训练,成功地让它学会了卡片识别。这其实就像人脑一样,一开始什么也不会,通过学习就可以进行识别和区分了。”人们纷纷惊叹不已。他继续说:“未来,感知机将学会更多的技能,比如识别印刷字母、手写单词、口述的命令,甚至识别人脸、喊出人名……还可以实现对语言的翻译。从理论上来讲,它可以在流水线上克隆自己,探索遥远的星球,感知、识别周围环境,而无须由人类培训或控制。”

机器实现了人类的智能,哪怕仅仅是识别卡片。这意味着机器也开始像人一样“看见”事物,并且拥有初步的思考能力。在 20 世纪 50 年代,这是非常令人惊叹的新发现。罗森布拉特和他的同事持续沿着该方向奋力前进,两年后完成了“马克一号”感知机。这是由 400 个光电管阵列组成的感知机,相当于一部 400 像素的照相机。“马克一号”学会了识别印刷字母 A、B、C、D。为了展示“马克一号”是通过学习获得的这项能力,罗森布拉特前后断开又连上了它的几根电线,机器在识别字母时就立即出错了,但在继续进行更多的识别训练后,它的识别能力又回到了之前的水平。至此,“马克一号”非常成功。然而没有人料到,一抹乌云在逐渐飘来。因为一个人,罗森布拉特的研究即将被中断。

明斯基曾和罗森布拉特就读于同一所高中。在就读于哈佛大学期间,明斯基使用 3000 多根真空管制造了人类第一个神经网络。随着研究的深入,明斯基提出了感知机的数学概念,把当时鲜为人知的人工智能当作自己的主要研究方向。

1956 年夏,明斯基和几位志同道合的朋友一起组织了一次会议。会议讨论了自然语言处理、机器学习、神经网络、计算机视觉等议题。在当时,机器智能还没有统一的名字,有些人将这个研究方向称作“自动机”。明斯基对这个名字很不满意,他将其正式改为“人工智能”。这就是著名的达特茅斯会议,也是人工智能领域的起源。明斯基是人工智能领域的第一位图灵奖获得者、虚拟现实的最早倡导者,也是世界上第一个人工智能实验室(MIT 实验室)的联合创始人。他的贡献对人工智能领域影响深远。

1969 年,明斯基和一位同事出版了一本关于神经网络的书,书名就叫《感知机》(Perceptrons)。这本书可以说是神经网络研究领域的里程碑。书中详细地阐述了单层感知机的一些局限性。单层感知机就是罗森布拉特的感知机模型,也是最简单的人工神经网络模型。它的输出层只拥有一个神经元,只能解决线性可分问题 2,如图 5-7 所示。

{%}

图 5-7 线性可分与线性不可分

罗森布拉特的感知机理论后来被称为“连接主义”,它起源于仿生学,就像大脑一样依赖神经元之间的连接。相比错综复杂的大脑神经,罗森布拉特的感知机是非常单一的,它只能学会范围很窄的一些线性分类任务。单层感知机存在一些固有缺陷,罗森布拉特和明斯基都清楚这一点。明斯基认为,这条技术路线很难创造真正的智能。由于明斯基在人工智能领域的权威性及对感知机的深入研究,在《感知机》一书出版之后,美国政府停止了对神经网络研究的资助。这个领域就此陷入低谷,罗森布拉特也将研究重点转向了其他领域。很多人认为,这本书让罗森布拉特的研究停滞了至少 15 年。

人工智能领域有三大学派:符号主义、连接主义、行为主义。只有连接主义这条技术路线在几十年后掀起了 ChatGPT 这一道滔天巨浪。虽说另外两条技术路线也都有人深入研究,且各有用途,但唯有连接主义可以通往通用人工智能之路。

在火爆全球的中国科幻小说《三体》中,作者刘慈欣描述了“思想钢印”这个概念:在人类因面对强大的三体文明入侵的威胁而丧失信心、对未来感到迷茫时,一种叫作“思想钢印”的心智干预机器被造了出来。被打了“思想钢印”之后,人的思维方式就会被控制。明斯基等人的《感知机》就像“思想钢印”一样让连接主义的研究停滞了至少 15 年的时间。20 世纪 80 年代,多层感知机的提出解决了单层感知机无法解决的线性不可分问题,使得罗森布拉特提出的神经网络技术路线重新成为热门研究领域。可惜的是,罗森布拉特已在 1971 年的夏天意外去世。

1974 年~ 1980 年被称为人工智能领域的第一次寒冬。在这段时期内,人工智能领域的研究资金被大幅削减,很多有潜力的研究被迫中断,这使得人们对人工智能的信心剧减。人工智能的发展之路十分坎坷,而且后来还出现了第二次寒冬。

第一,所有人都会死。

第二,苏格拉底是人。

第三,所以苏格拉底会死。

这是 2000 多年前柏拉图最著名的逻辑推理三段论。作为苏格拉底的学生,如此拿师父的生死来解释真理,柏拉图的做法有些不太合适,但的确传播了古希腊哲学开端的荣光。柏拉图、他的老师苏格拉底以及他的学生亚里士多德并称“古希腊三圣”。

这种逻辑思维方式,在 20 世纪 80 年代兴起的专家系统中得到了广泛应用。专家系统是一种模拟人类专家决策能力的计算机系统,它根据知识体系进行推理,致力于解决复杂问题。典型的专家系统有两个子系统:知识库和推理机。知识库由专家编写,代表事实和规则;推理机根据知识库推导出新的事实,主要采用“如果……就……”的推理逻辑。例如,通过输入条件 1“所有人都会死”和条件 2“苏格拉底是人”,就能推断出新知识“苏格拉底会死”。

专家系统能够解决一些具体问题,例如用来预测传染病的发展。它是第一种成功落地的人工智能系统。然而,专家系统无法解决更复杂的问题。在专家系统发展之时,另一个研究方向正在酝酿。

1947 年,英国人杰弗里·欣顿出生。十几岁起就充满好奇心的他后来成了人工智能专家。可是,他其实在大学期间并未上过计算机基础课程和人工智能课程。在剑桥大学就读时,他起初读的是物理和化学专业,但只上了一个月就退学了。一年后,他重新申请了剑桥大学的建筑专业,却又只待了一天就受不了了。然后他又注册了物理学和生理学的学位,但很快发现物理学中的数学内容实在是太难了,于是他改学哲学专业。好景不长,一年之后,他和哲学老师吵了起来,于是放弃了哲学,转向实验心理学。最终,欣顿在 1970 年获得了剑桥大学实验心理学学位。但毕业后,他认为心理学研究无法消除他对于大脑工作原理的疑惑。

这样乱七八糟的学术经历,把欣顿整得晕头转向。在面试时,大学毕业生经常被问的就是:“你到底想要的是什么?”我估计当年的欣顿回答不了这个问题。毕业后,欣顿做出了一个匪夷所思的决定:当一年木匠,并以此为生。这样做既非出于兴趣爱好,也不是为了缓解压力。欣顿的经历和拍出史诗级电影《泰坦尼克号》的导演詹姆斯·卡梅隆有些相似,后者曾以开卡车为生。

在持续一年多的木匠生涯里,欣顿阅读了赫布的《行为组织》(The Organization of Behavior)这本关于心理学和神经科学的书。此书解释了大脑的基本工作原理,其中包括赫布理论。根据赫布理论,学习过程就是大脑神经网络发射的一系列电信号引起的突触激活和新的连接增强,这就是突触可塑性原理。赫布正如在黑暗时代举起火把的人,在几十年里照亮了人类前行之路。赫布理论发表于 1949 年,该理论影响了研发出第一代感知机的罗森布拉特。20 多年后,这个理论又影响了欣顿。这种历史脉络的连锁反应,就像蝴蝶效应一样,推动着创新的发展。

1971 年,后来被誉为“深度学习之父”和“人工智能教父”的欣顿终于进入爱丁堡大学开始学习人工智能。赫布理论就像灯塔一样,照亮了他的人工智能之路。人工智能的每一次进步,都源于对人类大脑神经网络的灵感汲取。天才总是能够从根本上思考问题:既然人工智能要实现大脑的智能性,那么理解大脑怎样工作就至关重要。

20 世纪 70 年代,人工智能领域陷入了第一次寒冬。由于 20 多年没有任何有意义的进展,政府削减了研究资金。欣顿很难在英国找到合适的工作,于是他被迫转向美国寻找机会。在经历了 15 年的探索之后,欣顿终于在 1986 年和同事发表了一篇里程碑论文:《通过反向传播错误来学习表征》(“Learning Representations by Back-Propagating Errors”)。欣顿引入了反向传播算法,这种新方法成了所有深度学习技术的基础。后来,深度学习的几乎每一个成就,不管是自然语言理解,还是音频识别或图像识别,在某种程度上都能追溯到欣顿的工作。欣顿接过了心理学家赫布的火把,又继续照亮人工智能领域几十年。

1991 年,采用了反向传播神经网络思想的无人驾驶技术,让一辆宝蓝色雪佛兰汽车以 90 千米左右的时速行驶完 200 千米的距离。32 年后的 2023 年春天,当开着中国国产的理想 L9,在北京的环路上感受着中国自主研发的自动驾驶功能时,我不禁感慨,自动驾驶的历史竟如此漫长。

在整个 20 世纪 80 年代,个人计算机的蓬勃发展使得 CPU 的计算频率越来越高,而这也导致昂贵的专家系统硬件被冷落,价值 5 亿美元的专家系统产业就此崩溃。1987 年~ 1993 年,人工智能领域遭遇第二次寒冬。不过到了 20 世纪 90 年代,机器学习开始酝酿,新的技术和方法出现,人工智能领域逐渐重新焕发出生机和活力。

2017 年 3 月 22 日,清华大学大礼堂内人头攒动,清华学子们正在认真聆听时任 Facebook 人工智能研究院院长杨立昆(Yann LeCun)的一场演讲。在演讲中,杨立昆分享了一段珍贵的 Demo 视频。时间倒回至 1993 年,实验室里 33 岁的年轻学者杨立昆坐在台式计算机前,拿起一张纸条放到一个摄像头下,纸条上的数字“2 0 1 9 4 9 4 0 3 8”参差不齐地排列着。摄像头被固定在类似于台灯的支架上,拍摄的图像实时地显示在“古老”的 486 计算机的 CRT 显示器上。紧接着,杨立昆按下键盘上的一个键。几秒后,手写数字的下方依次显示出了计算机字体的“2 0 1 9 4 9 4 0 3 8”。这标志着手写字符已经成功地被程序识别。

30 年后,我们的生活已经被人工智能技术改变。我们通过手机 App 进行银行转账时,需要进行身份视频验证:“张开嘴、点头、摇头……”然后,银行就识别了我们的身份。我们无须去柜台,甚至连 U 盾也不需要。人工智能技术在图像识别领域的这种应用,其实从 20 世纪 80 年代就开始了。

在 20 世纪 80 年代,神经网络是非常冷门的研究领域,全世界没有多少团队在做神经网络研究,只有极少数科学家坚持着这个信仰。1985 年,杨立昆在巴黎的一次计算机会议上,听到了欣顿的演讲。两位科学家的思想交流点燃了杨立昆对神经网络的热情。他们一起吃饭、聊天,共同探讨如何通过神经网络来解决人工智能的问题,彼此均觉相见恨晚。

1987 年,杨立昆在巴黎第六大学获得计算机科学博士学位。读博期间,他一直在研究神经网络的反向传播算法。没错,这正是 1986 年欣顿等人发表的那篇里程碑论文中的反向传播算法。杨立昆了解到这个算法后,就立刻决定在这个方向上深入研究。

杨立昆这个名字看起来很像是中国人的名字,其实他是地地道道的法国人。1987 年博士毕业后,杨立昆接受欣顿的邀请,加入了他在加拿大多伦多大学的实验室做博士后工作,成为欣顿的学生。不久后,他在蒙特利尔认识了当时还在读研的约书亚·本吉奥。很多年后,欣顿、杨立昆、本吉奥三人一同获得了 2018 年度图灵奖——计算机领域的诺贝尔奖。

1988 年,杨立昆加入 AT&T 实验室,继续专攻光学字符识别和图像识别。杨立昆和同事将使用反向传播算法的卷积神经网络用于读取手写数字。1994 年,杨立昆应用卷积神经网络算法,研发出实际可商用的手写字符识别技术。由于他将错误率降低到了惊人的 1%,这项技术很快就得到了推广,并被称作“LeNet”。到 1998 年,银行使用 LeNet 算法扫描仪阅读了美国 10% 以上的支票。由于杨立昆对卷积神经网络的开创性研究,他被誉为“卷积神经网络之父”。

1997 年,由于硬件的指数级发展,计算机的算力提升突飞猛进。基于专家系统的 IBM“深蓝”超级计算机战胜了国际象棋当时排名世界第一的卡斯帕罗夫,震惊世界。虽然“深蓝”的算法架构和神经网络不属于一个学派,但是这种惊人突破预示着人工智能的巨大潜力。

20 世纪 90 年代,神经网络在学术界和产业界都被轻视,甚至忽视。在长达数年的第二次人工智能寒冬里,神经网络相关论文常被学术会议拒收,很少有人公开支持和谈论神经网络,似乎这样做会遭人耻笑。连接主义研究在美国顶尖大学里几乎完全消失了。为避免被拒收,神经网络相关论文往往用其他词来描述,例如“非线性回归”“函数近似”。即便是“卷积神经网络之父”杨立昆,在最初的论文里也不太敢用“卷积神经网络”这个词,而用“卷积网络”来称呼他的神经网络。历史就是如此曲折。

2017 年,杨立昆到达清华大学演讲。现场座无虚席、一票难求。同年,当他到上海演讲访问时,充满热情的学生纷纷向他索取签名和合影。他在接受采访时说:“上海恐怕是世界上唯一会有人在街头拦住我并索要我的签名的城市。在美国,只有电影明星才有这种待遇,科学家是没有那么多人追捧的。这种热情令人难以置信。”

2012 年 12 月,美国内华达州和加利福尼亚州交界的太浩湖哈拉斯酒店 731 房间内,一场不为人知的神秘拍卖会正在进行。房间里一位 65 岁的老人收到了来自美国加利福尼亚州、英国伦敦、中国北京三地的电子邮件。一封邮件里有一个数字报价:1500 万美元,这大概相当于 1 亿元人民币。

太浩湖是美国最大的高山湖泊,湖水清澈见底。太浩湖四周被松树和滑雪场环绕,也是著名的度假胜地。一年一度的 NIPS 大会(神经信息处理系统大会)就在此举办。在喧闹的会场里,人们都在讨论两个月前 AlexNet 算法模型取得的巨大进展,深度学习是人工智能领域的惊人突破。而作为深度学习核心人物,发明 AlexNet 算法架构的欣顿和他的两个学生却无心参与讨论,因为他们正在进行一场关乎未来三年发展方向的拍卖活动。

2012 年 9 月 30 日,每年一度的 ImageNet 大规模视觉识别挑战赛又一次开始了。由 AI 研究员李飞飞和同事发起的 ImageNet 是一个巨大的视觉数据库,目前已经包含超过 1400 万张图片和 20 000 个图片类别。在人工智能算法思路多种多样、很难评估真正效果的情况下,视觉识别大赛成为衡量算法效果的最佳标准。自 2010 年起,基于 ImageNet 数据库的视觉识别挑战赛每年都会举行。参赛者使用机器学习算法提高图片理解和识别能力,打榜拿名次是视觉识别算法突破的最好证明。

在 2012 年的比赛中,AlexNet 石破天惊,以领先第二名 10 个百分点的成绩碾压所有对手。这一显著优势预示着 AlexNet 方向的深度学习才是未来,其他人可能都走错了路。AlexNet 的创造者是欣顿教授和他的两个学生伊利亚和亚历克斯。他们的成果证明了神经网络的深度对其性能具有重要的影响。欣顿在演讲中正式把这个研究方向命名为“深度学习”。这个新名词让人们重新认识了这个领域。这次命名非常成功,深度学习的名字重新定义了这个研究方向,并且影响了很多人。

在 AlexNet 取得挑战赛冠军几天后,百度的 AI 研究员余凯通过一封电子邮件将欣顿介绍给了百度的一位副总裁。这位副总裁为欣顿的团队开出了高达 1200 万美元的 offer,他们只需要为百度工作 3 年即可。

收到百度的高额报价后,欣顿对自己所做研究的价值感到震惊。他们只是加拿大多伦多大学的师徒三人组,欣顿已经到了快退休的年龄,居然值这么多钱。与此同时,大大小小的公司接连向欣顿团队抛出橄榄枝,但是其他邀请不像百度这么高规格。在接受百度邀请前的最后时刻,欣顿犹豫是否有更合适的公司和更高的报酬。于是,在咨询了律师的建议后,他决定为团队注册一家新公司:DNNresearch,并组织了一场秘密拍卖会。被拍卖的新公司 DNNresearch 没有任何产品,只有一位 65 岁的老人和他的两个年轻的学生伊利亚和亚历克斯。

DNNresearch 从 1200 万美元起拍,每天固定一个起拍时间,起拍后的一小时内接受 4 家公司报价,每次报价至少要提高 100 万美元。如果没有更高的报价,当天拍卖结束。如果有更高的报价,则会延长一小时。参与竞拍的有谷歌、微软、DeepMind、百度这 4 家公司。这些公司相互均不知道有其他哪些公司参与竞拍,只能知道最新的匿名报价。竞拍方通过 Gmail 电子邮箱进行报价,而微软曾抗议 Gmail 是竞拍方谷歌自家的产品,存在偷看报价的可能。但是欣顿坚称谷歌不会偷看邮件。最终,大家都同意谷歌还是很厚道的,不会偷看邮件,因此还是就用 Gmail 参与竞拍。

电子邮件来自中、美、英三地,每一封新的电子邮件都意味着百万美元的涨幅。首先退出竞拍的是 DeepMind,那时它还是一家仅成立两年的创业公司,只能用公司对等股份进行竞拍,无法和互联网巨头竞争。虽然 DeepMind 的规模很小,但是它的参与体现了其管理层的远见。当报价从 1500 万美元涨到 2000 万美元时,微软退出了。不过后来,微软又重新参与了进来。但报价涨到 2200 万美元之后,微软再次退出,这时只剩下百度和谷歌竞争了。欣顿意识到竞争的激烈程度,于是把竞拍时间窗口缩短到了半小时。竞拍报价一路攀升到 4400 万美元,这时已是午夜,情绪激动的欣顿决定暂停竞拍,以便好好休息一下。

欣顿团队被 4400 万美元这个巨额数字所震撼,他们从未想到竞拍金额能够飙升到如此之高。深夜里,欣顿和团队成员讨论了很长时间。第二天竞拍开始时,欣顿发邮件说要推迟半小时。半小时后,他发邮件表示,竞拍已经结束了,他们决定以当时的报价 4400 万美元把公司卖给谷歌。

谷歌的报价者一度认为欣顿在开玩笑,为什么要白白放弃更高的价格呢?事实是,这是欣顿认真做出的决定。他对当时的报价已经足够满意,而且原本也更倾向于与谷歌合作。原因是,他无法乘坐飞机跨越太平洋来到中国,因为他在青少年时期受过伤,一旦坐下就会出现腰椎间盘突出的问题,需要卧床休息数天。也就是说,欣顿是一个无法坐下的人,他已经很多年没有坐下过了。因此,他只能在站立或躺着时指导学生,无法承受长时间的飞行。最终的价格 4400 万美元已经远远超过了百度最初的报价 1200 万美元。

这次竞拍也展现了百度对深度发展人工智能的决心,不过欣顿的健康问题让这件事成为一个遗憾。百度的最终报价已经达到 3 亿元人民币,相当于每人 1 亿的 offer,彰显出技术的巨大价值。余凯非常高兴参与这场拍卖会。即使最终没有成功,对方的超高报价也证明了百度的战略眼光和判断,这也将刺激百度在未来的人工智能方向上做更大投入。总体来说,这是一件好事。

竞拍结束两个月后,欣顿率团队于 2013 年加入谷歌,进驻谷歌大脑(Google Brain)实验室,并兼顾在多伦多大学的研究工作。而在 2014 年,百度邀请吴恩达加入,吴恩达曾参与创办谷歌大脑实验室。吴恩达加盟中国科技公司,这成为轰动全球科技行业的标志性事件,也展现了中国科技公司的吸引力。2015 年,余凯离开百度,成立了地平线公司,专攻深度学习芯片的研发。

AlexNet 为深度学习开启了新篇章,这场竞拍只是深度学习浪潮中的一朵浪花。天价的竞拍额展现了在深度学习的发展过程中,技术的底层和基础、高级研发工程师的争夺战将持续不断。深度学习的定义打破了人们对神经网络的种种认知限制,成为人工智能领域的里程碑和转折点,深刻影响了全球科技行业的发展。这种影响至今仍然在发酵。

欣顿团队中的伊利亚在加入谷歌大脑实验室后,于 2015 年离开并加入 OpenAI,担任首席科学家,推动开创了大模型的人工智能新技术范式,直接促进了 ChatGPT 的诞生。ChatGPT 成为第四次科技革命的开端,目前的 ChatGPT 只是未来通用人工智能和超级人工智能的冰山一角。

2015 年 9 月,定居法国多年的樊麾收到了一封电子邮件,邀请他前往参观 DeepMind 公司。虽然信中没有详细说明原因,但他毫不犹豫地答应了。在线交流之后,他才知道 DeepMind 是谷歌旗下的一家独立运作的人工智能公司。到达 DeepMind 之后,他被邀请和 AlphaGo 下棋,并且需要签署一份保密协议,承诺不对外界透露关于 AlphaGo 的任何信息。

他的任务是和正在测试中的 AlphaGo 进行 5 局对弈。作为职业二段棋手和前三届欧洲围棋冠军,樊麾很有信心赢得比赛。他当时认为,AlphaGo 毕竟只是一个计算机程序,太好对付了。在此之前,还没有任何 AI 程序可以战胜哪怕是职业一段的棋手。在更早的年代里,甚至小朋友经过几天的学习,就能下赢围棋程序。

在比赛中,樊麾逐渐意识到自己正在对阵的不是一个普通的计算机程序。很快,5 局过去,他被 AlphaGo 碾压,全输了。对于这个结果,樊麾既沮丧又快乐,沮丧是因为他输给了计算机程序,快乐是因为他参与和见证了历史。

樊麾是历史上第一位在计算机程序不让子的情况下输给计算机程序的职业棋手。这原本被认为是十年甚至几十年后才能实现的。

樊麾输给 AI 的新闻很快传开,有很多人说樊麾是在故意放水,还有人质疑樊麾的水平,认为欧洲冠军不能代表世界冠军。坊间流言四起的同时,樊麾被 DeepMind 聘为围棋顾问,负责帮助找出 AlphaGo 的弱点并进行改进。

2016 年 3 月,AlphaGo 和李世石展开五局三胜人机对战,奖金为 100 万美元,围棋界对此高度关注。上一次人机大战是 1997 年国际象棋冠军和 IBM 的“深蓝”超级计算机的对战。但是这次不一样,AlphaGo 和“深蓝”的差异很明显:“深蓝”主要靠专家输入规则和技巧并运用暴力穷举策略来赢得比赛,而 AlphaGo 则通过神经网络学习和自主发现定式与技巧。“深蓝”更像计算机,而 AlphaGo 更像人类。

李世石是韩国人的骄傲,他几乎被所有韩国人视为这场比赛的胜者。这场比赛在中国也受到极大的关注,因为中国是围棋的发源地。传说围棋大约在公元前 2300 年由尧帝发明,至今已经有 4000 多年的历史。这场比赛得到了全球范围的关注,共有 1 亿人观看了比赛。这是搜索引擎巨头谷歌的 AI 程序与人类冠军的对战,更是一场关乎人类智慧与尊严的比赛。

围棋是最能体现人类智慧的游戏。60 年来,从第一代感知机诞生到 2016 年,计算机程序都没有成功战胜人类。越了解围棋,人们就越不认为 AI 有机会赢。比赛前,李世石在接受采访时表示:“我相信人类的直觉还是远远领先机器,人工智能很难赶上,我将竭尽所能捍卫人类智慧。”

然而,李世石在首场即败北。在第一场结果公布后的简短新闻发布会上,上百位记者举起单反相机,闪光不断打在李世石身上。新闻直播解说道:“AlphaGo 战胜了 18 届世界围棋冠军,机器战胜了人类,这代表了人工智能的巨大突破。”

第二局,李世石再败。虽然李世石在此局比赛后休战一天,召集围棋顶级高手分析前两局比赛,试图找出对抗 AlphaGo 的方法,但他在第三局中仍然输给了 AlphaGo。

虽经李世石在第四局中扳回一局,证明了人类并没有完全被击溃,人类智慧的尊严没有被彻底摧毁,但五局四败的结果已经说明一切。

人机大战结束了,但 AI 的进化刚刚开始。无论依照怎样的标准,AlphaGo 战胜李世石都是 AI 历史上的一大里程碑事件。在围棋这样有着无穷变化和可能性的游戏里,机器的胜利展现了 AI 技术的无限可能。这时候人类还没有感受到 AI 的威胁,而是为 AI 的突破感到自豪,因为 AlphaGo 是人类智慧的结晶。

2017 年元旦前后,在线围棋游戏平台上出现了一个神秘的玩家,id 是 Master,中文是“大师”的意思。这位 Master 以零败绩一路攻城略地,战无不胜。无论是围棋九段棋手古力的悬赏征集,还是世界围棋第一人柯洁的参战,都无法击败这位大师。最终,Master 以 60 比 0 的不败战绩横扫了整个围棋界。围棋界沸腾了,一个江湖上谁也没有听说过的人,一个无名小辈,一上来就横扫整个江湖。这让人们想起了金庸小说《天龙八部》中的扫地神僧。

游戏结束后,真相揭晓。Master 就是 AlphaGo Master,它是 AlphaGo 的在线版。

DeepMind 的围棋程序共有以下 5 个版本。

  1. AlphaGo Fan,以 5 比 0 战胜了樊麾。
  2. AlphaGo Lee,以 4 比 1 战胜了李世石。
  3. AlphaGo Master,即 AlphaGo 的在线版,以 60 比 0 战胜了多位围棋高手。后来,这个版本和柯洁进行了“乌镇对决”,并以 5 比 0 的结果胜出。
  4. AlphaGo Zero,以 100 比 0 战胜了 AlphaGo Lee。
  5. AlphaZero,以 60 比 40 战胜了 AlphaGo Zero。这是一个棋类游戏的通用版本,不仅可以玩围棋,还可以玩国际象棋和将棋。

AlphaGo Lee 还存在弱点,这个版本的神经网络学习了人类几十万局棋谱对战,其弱点竟然来自人类自身。人类的局限性在于思路总是有限的,所有定式和技巧都无法覆盖所有的局面。而 AlphaGo Zero 真正从空白棋盘起步,完全没有任何棋谱训练,真正从零开始的它没有了人类的弱点,最终以 100 比 0 战胜 AlphaGo Lee。

2019 年 11 月 19 日,因为 AlphaGo 带来的心理冲击,李世石宣布提前退役,表示“即使我成为第一,也有无法战胜的存在”。原本世界冠军是极为自豪的,因为每一次胜利都在拓展人类智慧的边界,这也是围棋成为一门艺术的原因。但是,AlphaGo 的到来摧毁了这一切。AlphaGo 无比强大,让所有围棋九段的技巧都变成了 AlphaGo 的子集,也让围棋从一门艺术变成了和写作业对标准答案一样。不仅李世石,柯洁也一样遭受了巨大打击。柯洁说:“人类用了几千年的时间改进了我们的战术。计算机告诉我们,人类完全错了……我甚至可以说,没有一个人触及过围棋真理的边缘。”

由于再也没有对手,AlphaGo 就永久地退役了。无敌就是这样寂寞。“乌镇对决”期间,AlphaGo 放出了自我对弈的 50 个棋谱,这些被誉为“来自未来的棋谱”。即使人类再下 5000 年围棋,也可能想不出其中的很多定式和技巧。AlphaGo 从开始训练到退役,仅用了两年时间。在如此短的时间里,它就走完了人类 5000 年的路,还把之后 5000 年甚至永远的路给走完了。这就是 AI 的迭代速度。一旦点亮某棵技能树,就能以远远超越人类想象的速度进化。

DeepMind 把深度学习和强化学习推到了顶峰。在 AI 领域,DeepMind 公司一直是引领者。它的产品远不止 AlphaGo,还有很多其他 AI 项目,如旨在利用 AI 技术来预测蛋白质的折叠结构的 AlphaFold。2022 年,AlphaFold 取得飞跃性进展,成功预测出超过 100 万个物种的 2.14 亿个蛋白质结构,几乎涵盖了地球上的所有已知蛋白质。这个项目的成果被誉为“基因组革命的下一步”,为未来的生物学研究和医学研究提供了巨大帮助。

2022 年,DeepMind 开始内测基于大模型的聊天机器人 Sparrow(“麻雀”)。为了更加专注于大模型和聊天机器人的研发,谷歌的蓝移团队也于 2023 年 2 月并入 DeepMind。2023 年,DeepMind 即将发布自家的聊天机器人。ChatGPT 也会迎来越来越多的重磅级对手。

答错一道题,谷歌损失了 1300 亿美元市值。

2023 年 2 月 8 日,谷歌在法国巴黎召开了一场大型产品发布会,并通过在线视频进行直播。在发布会上,谷歌展示了翻译、地图、图片搜索等多个产品改进的 Demo 演示,吸引了无数用户的关注。在这些产品中,最受瞩目的是 Bard。这是谷歌推出的一款聊天机器人,与 ChatGPT 类似,可以回答用户的各种问题,例如怎样规划到澳大利亚的旅行,或是对比两部获奥斯卡提名的电影。

事与愿违总是世间常态。这次灾难性的 Bard 发布会后,谷歌的股票大跌 7.4%,总市值蒸发 900 亿美元。次日,谷歌的股票继续大跌,两天总计跌去 11.9%,抛开美股大盘 1 个多百分点的跌幅,谷歌股票的跌幅超过了 10%。以谷歌高达 13 000 亿美元的总市值计算,它的市值在短短两天内蒸发了 1300 亿美元,也就是超过 9000 亿元人民币。如此高额的损失,仅仅是因为 Bard 答错了一道简单的题。

这一切要从两个多月前开始说起。

2022 年 11 月 30 日,OpenAI 发布了全球第一款真正的智能聊天机器人——ChatGPT。一经发布,ChatGPT 就引发了用户的热情响应。大家开始疯狂“调戏”ChatGPT,并在社交网络上分享各种聊天截图。在没有任何广告推广的情况下,ChatGPT 仅用 5 天就拥有了 100 万用户。随着使用量增加,服务器被挤爆,OpenAI 不得不中止服务并紧急扩容。用户逐渐发现,ChatGPT 不只是可以回答段子的聊天机器人,还可以用来写作业、写论文、做调研、做头脑风暴,其实用性远超想象。2023 年 1 月起,大量用户涌入。到发布整整两个月的时候,ChatGPT 的用户量达到了匪夷所思的 1 亿。这让整个互联网圈和投资圈都感到震惊。

要知道,作为扩散速度很快的社交网络,Facebook 用了 4 年才拥有 1 亿用户。移动互联网时代,颠覆性创新产品的扩散速度大大加快。以 1 亿用户量为标准,图片社交网络 Instagram 用了两年半的时间;字节跳动的出海短视频平台 TikTok 仅用了 9 个月;而 ChatGPT 让这个时间缩短到了两个月,这在整个互联网史上都是绝无仅有的扩散速度。此外,在发布两个月后,ChatGPT 在美国大学生群体中的使用率达到了惊人的 90%。这说明这次的聊天机器人完全不一样了,也预示着未来的滔天巨变。

真正意义上的聊天机器人其实最早在 1994 年就出现了,但那时的框架仅仅是几百行代码的脚本,其原理只是一种机械应答。随着 2012 年深度学习的兴起,聊天机器人的能力得到很大提升。2014 年,亚马逊引领的 Alexa 智能音箱浪潮涌起。Alexa 拥有很强的智能语音识别能力和自然语言处理能力,可以理解用户的口头指令,帮助用户完成各种任务,还可以回答问题、控制家电、播放音乐等。尤其后来中国各个大厂开始“内卷”智能音箱后,用户花 89 元就可以买到智能音箱。无数的小朋友开始用智能音箱听儿歌,老人则用它来获取天气预报。但是,这类聊天机器人进行多轮对话的能力非常有限,而且只能懂一些简单的自然语言命令,终究还是“听不懂人话”。就连科技尖子生苹果公司的 iPhone 内置的聊天机器人 Siri,也经常会回答错误。例如,我对 Siri 说:“请帮我推荐附近的餐厅,不要日料。”然后,Siri 就会吐出一堆日料餐厅的名字。这是因为 Siri 还“听不懂人话”。但是,ChatGPT 不一样。ChatGPT 真正理解自然语言,是真的懂人话、通人性。

ChatGPT 一经发布,大戏就开场了。

2022 年 12 月 2 日,针对网友关于“谷歌要完了”的帖子,谷歌第 23 号员工、Gmail 的缔造者保罗·布赫海特在回复时预言道:谷歌可能在两年内就会被摧毁。AI 聊天机器人将“杀死”搜索引擎,就像搜索引擎曾经“杀死”黄页一样。搜索引擎是谷歌收入的命根子。他的理由看起来很充分:即使谷歌赶上了这一波浪潮并推出自己的聊天机器人产品,也无法在不破坏搜索引擎盈利业务的情况下完全部署它。

2022 年 12 月 4 日,硅谷大佬马斯克说,ChatGPT 惊人地强大,我们距离危险的强人工智能不远了。

2022 年圣诞节前几天,谷歌高层无心展望新年,他们正忙于应对手头的紧急威胁,这是谷歌成立 24 年来遇到的最大威胁。谷歌及其母公司 Alphabet 的首席执行官桑达尔·皮查伊轮番召集各部门员工开会,研究和商讨 2023 年的 AI 战略。谷歌的研发、安全、信任等多个部门被重新分配任务,全力协助开发新的 AI 技术原型和产品。

圣诞节的前一天,皮查伊在公司内部发布了“红色警报”(Code Red)。颜色警报系统是硅谷科技公司经常用来执行紧急任务的优先级响应系统。黄色警报意在大幅提升处理优先级,例如处理较大的事故、急需解决的问题等。在谷歌,红色警报本身并不少见,通常需要将处理线上重大事故或重大 bug 列为绝对的最高优先级,需要员工加班加点或者彻夜不眠地立刻解决问题,各个部门也需要优先配合。但这次的红色警报不是针对服务器事故或者 bug,而是研发和战略层面上的预警。这也意味着谷歌已经把 ChatGPT 带来的威胁,当作和搜索引擎服务中断事故一样严重。这是因为,这种新型聊天机器人极有可能取代传统的搜索引擎,谷歌的核心搜索业务面临严重威胁。一位谷歌高管甚至表示,现在是决定谷歌未来命运的关键时刻。

ChatGPT 的突然爆红让谷歌措手不及。很多人开始质疑:谷歌早干吗去了?为什么不是谷歌先推出这样的 AI 聊天机器人?毕竟,在聊天机器人方面,谷歌拥有最大的研发动力和一流的研发技术。

2007 年,Siri 公司在美国国防部的资助下成立,2010 年被苹果公司收购。2011 年推出的 iPhone 4S 系统集成了 Siri 虚拟助理。2014 年,亚马逊推出内置对话功能的 Alexa 智能音箱。2016 年,谷歌终于发布了 Google Assistant 虚拟助理。显然,这些都是上一代的聊天机器人,并不真正拥有自然语言理解能力,只能应答有限的命令,且没有多轮对话能力。聊天机器人本身对谷歌而言并不是什么新鲜事,不仅有 Google Assistant,谷歌还拥有和 ChatGPT 针锋相对的内部聊天机器人产品 LaMDA。

2017 年,谷歌发布了 Transformer 架构,ChatGPT 正是建立在 Transformer 架构的基础之上的。而且,Transformer 架构也是所有 AI 大模型的基础。在 2021 年 5 月的谷歌 I/O(Google Input/Output)开发者大会上,谷歌的大语言模型 LaMDA 一亮相就惊艳了众人。LaMDA 接受了人类训练,已经具备连续的开放式对话能力。谷歌声称可以做到“合理、有趣且特定于上下文”。

2022 年,LaMDA 已经具备相当的对话能力。但是,因为种种对 LaMDA 输出质量的担忧,谷歌对外推出 LaMDA 测试版的时间一拖再拖。作为一个很早就拥有超过 10 亿用户的科技巨头,谷歌发布的任何新产品都面临着更高的期待。相比之下,OpenAI 是一家小型创业公司,没有人会对其产品出现问题感到意外。在 AI 领域,巨头因为层出不穷的种族歧视、语言暴力等问题撤下新上的产品是常见的事情。2022 年,谷歌就曾被爆某工程师因为说旗下的 LaMDA 产生意识而被辞退。因此,科技巨头普遍对 AI 产品的发布感到忧虑或持谨慎态度。

2023 年 1 月 23 日,微软突然宣布对 ChatGPT 母公司 OpenAI 巨额投资 100 亿美元,未来将分多轮次投资完毕,并且将把 ChatGPT 全面整合到微软的近乎全部产品线中,包括 Office 系列产品和微软必应搜索引擎。百亿美元级别的投资相当少见。微软在 2019 年和 2021 年已经对 OpenAI 进行过两轮投资。在 2019 年的投资中,微软提供的金额已高达 10 亿美元。不仅如此,微软还对 OpenAI 进行计算上的资源倾斜,据说微软内部停掉了许多项目,把 GPU 计算资源节省下来并转移给 OpenAI 使用。微软和谷歌的巨头之战已经彻底爆发。

第二天,也就是 2023 年 1 月 24 日,已经退休的谷歌联合创始人谢尔盖·布林出人意料地提交了一份 CL(changelist 的缩写,意为变更列表),以便查看 LaMDA 的数据和代码。这个动作虽然微小,但是极为罕见,毕竟布林在 2019 年就已经退休并远离一线了。这些变化都表明,谷歌高度重视来自 OpenAI 的威胁。

2023 年 1 月 31 日,所有的聪明人都意识到,AI 新时代开启了。英伟达创始人黄仁勋在美国加州大学伯克利分校演讲时表示:“ChatGPT 已经吸引了许多人讨论和使用,而这只是某个更伟大事物的开端。ChatGPT 是人工智能的 iPhone 时刻。”这个评价非常高,因为 iPhone 开启了移动互联网时代,它的浪潮席卷全球,带动了智能手机的普及。

市场的变化速度比布林想象的还要快。ChatGPT 发布满两个月后,2023 年 2 月 1 日,中国春节后开工的第一周周中,瑞银发布研究报告并称:ChatGPT 在过去的两个月里获取了 1 亿用户。这则新闻引爆了中国互联网圈。我的朋友圈被有关 ChatGPT 的评论所刷屏。

2023 年 2 月 3 日,谷歌宣布,该公司在 2022 年年底已经投资了 ChatGPT 竞品 Claude 聊天机器人,投资金额为 3 亿美元。Claude 由 Anthropic 公司研发,它同样是基于大模型的聊天机器人。Anthropic 由从 OpenAI 出走的研究员团队创立。这项投资之前一直没有对外公开,但在外界和内部的期待中,谷歌需要证明自己做了点儿什么。

2023 年 2 月 7 日,谷歌在 Twitter 上发布了自家新的聊天机器人 Bard,并且对它寄予厚望。Bard 的 Demo 展示了一个使用案例。

怎样向 9 岁的孩子解释詹姆斯·韦布空间望远镜的新发现?

Bard 给出的答案中有这样一句:詹姆斯·韦布空间望远镜首次拍摄了太阳系外行星的照片,如图 5-8 所示。

{%}

图 5-8 Bard 聊天机器人的 Demo 截图,答案中的第 3 条信息是错误的

这是一个事实错误,首次拍摄系外行星照片的是智利帕瑞纳天文台的甚大望远镜,而不是詹姆斯·韦布空间望远镜。就是这个错误,埋下了一颗大雷。这样的错误在 ChatGPT 中比比皆是。聊天机器人并不像宣传的那样完美,这也是谷歌迟迟没有推出聊天机器人的原因。

局势愈演愈烈。2023 年 2 月 7 日,微软举行了一场小型发布会,其间发布了集成最新版 ChatGPT 的新必应(New Bing)搜索引擎和新版浏览器 Edge。在这一消息的刺激下,微软股价当天上涨了 4%。发布会后几小时,微软首席执行官萨蒂亚·纳德拉接受采访时被问到如何看待和谷歌的竞争关系。纳德拉直言不讳地回答道:

我们只想创新。我们今天就是来竞争的,今天就是我们向搜索引擎发起挑战的一天。相信我,我干这一行 20 年了,我一直在等待这一天。但你看,说到底,他们在这一行就是一只 800 磅重的大猩猩3。我希望,通过我们的创新,会让大猩猩出来展示它还会跳舞。我想让所有人知道,是我们让它跳舞的。我认为这将是很好的一件事。

谷歌的搜索引擎市场份额高达 92%,坐享垄断收益 20 多年。这种大公司往往在创新方面谨慎、迟缓。纳德拉的隔空喊话直击谷歌的痛点,这种正面对决就很刺激。

2023 年 2 月 8 日,谷歌在法国巴黎召开了产品发布会,其间重点发布了 Bard。意外的是,美国天体物理学家格兰特·特伦布莱在 Twitter 上指出了 Bard 在前一天的一个回答中的事实错误,如图 5-9 所示。这个错误在被忽视两天之后才突然爆发并开始广泛传播,让原本就对谷歌动作迟缓不满意的投资者大失所望,进而对谷歌能否推出优秀的聊天机器人甚至对谷歌的未来发展充满了不信任。这就引发了前文讲到的谷歌股价大跌事件。

并不是所有人都看好微软的挑战,因为谷歌能出的牌还有很多,其功力仍旧无比深厚,牌局才刚刚开场。科技创业者 Tibo 就评论说,Bard 这件事过后,谷歌会全力反击。纳德拉或许是正确的,但他正确的概率只有 50%。谷歌确实是一只 800 磅重的大猩猩,但它也会“踢疼微软和 OpenAI”。

{%}

图 5-9 美国天体物理学家格兰特·特伦布莱指出 Bard 犯的错误

不管怎样,市场竞争仍然处于初始阶段。谷歌仍旧占据 90% 的市场份额,家底雄厚,日活用户超过 10 亿。不过,2023 年 3 月 8 日,微软必应官方博客宣布,新必应推出后仅仅 1 个月,日活用户量就突破了 1 亿。微软财务副总裁菲利普·奥肯登在不久前的分析师电话会议上说:“搜索广告市场份额每增加 1 个百分点,我们的广告业务就会获得 20 亿美元的收入机会。”微软有足够强的动力和足够厉害的技术让 OpenAI 继续获得增长。

作为硅谷尖子生,谷歌自从 1998 年成立以来,就一骑绝尘地垄断搜索引擎市场到今天,几乎从未有公司撼动谷歌的核心业务。在谷歌成立 25 年后,微软再次向谷歌发起了挑战。这个世界永远在变化,是基于大模型的 AI 改变了这一切。但是,这仅仅是开始,不仅仅是搜索引擎和聊天机器人,未来还会有更多领域被影响、被改变。尤其是 OpenAI 已经义无反顾地走上了一条通天大道——通用人工智能。这条路通往人类智力被极大解放的世界。ChatGPT 只是未来通用人工智能的冰山一角,通用人工智能终将开启一个全新的世界。


精选留言