你好,我是李锟。
上节课中,我讲解了两个入口 Agent 的开发。真正开发一个企业级产品的过程是漫长的,至少需要一两周的迭代,才能开发出 AI 助理的一个产品雏形。好在很多技术障碍都已经扫除,团队未来可以按照计划顺利开展迭代开发了。
前面两节课中扫清技术障碍的工作,在敏捷开发团队中很常见。通常是先派一两个资深开发人员(精兵强将)花一到两周时间做一些开发尝试,解决掉团队未来在开发过程中会遇到的技术障碍,写出一些可重用的框架代码和例子给团队里的初级开发人员作为示范。在前面的课程中我管这类工作叫做“扫雷工作”,这些扫雷工作在敏捷开发方法 Scrum 中被称为 Spike,而正常的迭代开发被称为 Sprint。
关于 Sprint 和 Spike 的细节,可以参考这篇文章:敏捷开发中,sprint和spike有什么区别?
剖析学院派和工程派的区别
不要轻视工程学细节问题
从设计开发 AI 助理这个 Autonomous Agent 应用的过程,我们可以体会到,即使是设计开发一个中等复杂度的 Autonomous Agent,也有大量工程学方面的细节问题需要解决。这些工程学细节问题大多是琐碎的,与我们特别喜爱的 LLM、AI 方面的前沿技术可以说没啥关系。但是如果不同时解决好这些工程学细节问题,就没办法做出一个好用的应用。那么这些高大上的前沿技术就失去了可靠的宿主,将会成为无本之木。
Sam Altman 强调的“在做中学”,听起来容易做起来很难。“在做中学”需要非常强的 DIY 能力,要有非常大的耐心和细心,解决好工程学细节问题同样也是很重要的。Kence Anderson 在《自主 AI 设计》这本书中也指出,AI 技术和算法的专家,未必就能够成为行业解决方案的专家。只有长期坚持“在做中学”的开发者,才能成为真正的行业解决方案专家。
但是“在做中学”并不是 Sam Altman 的发明,而是来自于美国教育家约翰·杜威(John Dewey)所著的《民主与教育》(Democracy and Education)这本书。
学习到这里,这些道理你想必已经能够理解。我们不要轻视这些工程学细节问题,只有解决好这些细节问题,才能做出一个优秀的产品或行业解决方案。如果你开发的产品非常难用甚至根本无法解决用户的痛点,即使你使用了大量先进的算法,也只会劳而无功。相反,如果你开发的产品解决了用户的痛点,大受欢迎,用户数量快速增加,甚至产生了可观的收入。这样产品才能可持续发展,为未来应用更多前沿技术奠定了良好基础,而产品的快速发展也有助于鼓舞团队的士气。
确定自己的定位:学院派还是工程派
在 LLM、AI 行业,有很多人属于学院派。他们做出了杰出的贡献,发表了很多重要的论文。今天他们的研究成果有很多已经进入了实用阶段,被很多开源的框架和库实现。我们这套课程当然不是前沿的学院派,这套课程面向的人群都是工程派,包括我本人也是百分百的工程派。我希望将学院派过去几年研究成果中那些进入实用阶段的技术,应用到真实的 Autonomous Agent 应用开发之中,开发出来高度智能、易用的产品。
其实在 LLM、AI 行业有能力做一位真正“学院派”的开发者的比例是很小的,我估计大约只有 5%,其余 95% 的开发者都是工程派。作为一位工程派也没有必要自卑,真正能够把一些前沿技术落地的人(走完最后一公里),全部都是工程派。因此作为一位工程派,我们同样也能做出巨大的贡献。其实 MetaGPT 团队的领导者吴承霖老师、AutoGPT 团队的领导者 Toran Bruce Richards 更大程度上也都是工程派。他们长期致力于做出优秀的开发框架和产品,而不仅仅满足于发表论文。
另一方面,我们对于 LLM、AI 的一些前沿研究领域,也需要保持足够的敏感度。虽说我们推崇的学习模式是“剑宗模式”,但适当地阅读一些相关的论文、学习一些算法还是很有必要的。LLM 领域的论文层出不穷,我们不可能全部读完。我们应该带着要解决的明确问题,去寻找可能能够解决此问题的论文来阅读。
现在已经有很多基于 LLM 的论文辅助阅读工具,例如最早出现的一个在线工具 ChatPDF。一篇很长的论文,在不明白其要解决的问题之前,没必要马上进行精读。可以使用一个辅助阅读工具先为这些论文生成摘要,我们先阅读这些摘要,还可以同时向这个工具提出与论文相关的问题。善用这些工具,便于快速筛选和提高论文的阅读效率。而且你使用的时间越长,这些工具越懂你的偏好,未来会越来越好用。
这一课我们脱离开前面两节课的实战开发路线,假设通过团队一个迭代的努力,我们已经完成了一个 AI 助理的产品雏形,基本上实现了 17 课中确定的最基本的 UseCase。人无远虑必有近忧,我们需要考虑得长远一些,对 AI 助理这个产品继续做一些长期的规划。
AI助理的长期产品规划
AI 助理的产品版本划分
为了 AI 助理这个产品的可持续发展,我们将其设想为一个收费的 to B 产品,收费对象为使用 AI 助理的企业客户。AI 助理有云端的 SaaS(Software as a Service,软件即服务)版本,也有私有化部署(部署在企业私有云或局域网内)版本。
按照上述设想,AI 助理这个产品可划分为以下三个版本,不同版本有不同的收费方式。
-
入门版仅包含初级功能,可免费试用。仅有云端的 SaaS 版本。
-
高级版在入门版的基础上,还包含了高级功能。有云端的 SaaS 和私有化部署两种版本。私有化部署版本的价格比云端 SaaS 版高很多。按照使用期限(按季度、按年、终身买断)收费。
-
定制版在高级版的基础上,还包含了为特定企业客户定制的功能。仅有私有化部署版本。
AI 助理需要完善的功能
以下我列出了一些后续需要完善的功能,以及实现各个功能会使用到的技术。我将非 AI 技术标注为“常规技术”,这并不意味着常规技术就不复杂或者不重要。
入门版包括以下功能:

高级版中还包括以下功能:

上面列出的这些功能使用了很多不同的技术,我们这套关于 Autonomous Agent 开发的课程,如果把这些技术都涉及到,显然严重偏离了课程的中心。我们还是聚焦在真正与 LLM、AI 相关的技术部分。不过正如我前面说过的,真正要开发出来一个优秀的产品,只关注前沿技术是远远不够的。
在上述这些需要完成的后续功能中,真正与 LLM、AI 相关的部分包括:
-
idea、action 的增删改查的 NUI。
-
checklist 相关的智能功能,包括自动对 checklist 做 reviw、自动检测 checklist 中的冲突(时间冲突、资源冲突等等)、自动提出 checklist 的优化建议等等。
-
智能地执行 action,调用相关系统工具执行 action 前需主动取得用户的授权。
-
智能的通知,除了单向的通知外,还可接收用户的反馈,以关闭通知或修改通知的格式。
在上述这些功能中,充分应用 LLM、AI 可以让用户摆脱繁琐的操作,大幅改善用户体验。
未来需要持续学习的方向
为了持续完善 AI 助理这个产品,除了持续推进和深化开发工作外,我们还需要持续学习。
追随 AutoGPT Platform 等开源项目的后续发展
因为 AI 助理选择了基于 AutoGPT Server 来实现,而 AutoGPT Platform(包括 AutoGPT Server 和 AutoGPT Frontend)目前正在快速发展之中。所以我们必须跟上 AutoGPT Platform 的发展速度,及时利用 AutoGPT Platform 最新的研发成果。我们需要融入 AutoGPT 社区,积极参与技术问题的讨论,并且在力所能及的情况下为社区做出贡献(源代码、测试用例、文档等等)。
除了 AutoGPT Platform,如果还有余力为 MetaGPT、DSPy 作出贡献,那就更棒了。参与开源项目貌似是无私奉献,其实回报是非常大的。
持续跟踪开源 LLM 的发展
AI 助理还选择了基于开源 LLM 来实现,而开源 LLM 同样也是一个快速发展的领域。2025 年春节前,最优秀的国产开源 LLM DeepSeek R1 + DeepSeek V3 横空出世,震惊世界。有人去年曾断言开源 LLM 永远看不到闭源 LLM 的车尾灯,仅仅半年之后就惨遭 DeepSeek 打脸,不得不全面支持 DeepSeek,并且大幅增加了 LLM 产品开源的力度。因此我们需要持续跟踪开源 LLM 的发展,与时俱进,及时利用好最新、最强大的开源 LLM 的成果。
我们需要重点关注的开源 LLM 有三个系列:
-
深度求索的 DeepSeek 系列:目前版本为 DeepSeek V3、DeepSeek R1。
-
阿里云的 Qwen 系列:目前版本为 Qwen2.5、Qwen2.5-Math、Qwen2.5-Coder。
-
Meta 的 Llama 系列:目前版本为 Llama 3.3。
这三个系列,我们应该重点关注的都是 20b 以下的小模型,可以运行在普通的硬件(Nvidia 4090 以下的消费级显卡)上面。 此外,我们还需要关注 ollama 和 vLLM 这两个开源 LM 部署工具的发展。
总结时刻
这一课我先剖析了学院派和工程派的区别。然后对 AI 助理未来的发展做了一个长期规划,详细列出了未来需要实现和完善的功能。最后,我介绍了未来需要持续学习的两个方向。
在设计开发 AI 助理这样的 Autonomous Agent 时,我们需要注意,并非所有的功能都适合使用 LLM、AI 来实现。对于传统技术能够解决得很好的功能,非要使用 LLM、AI 只会事倍功半。用户并不能体会到明显地改善,当然也没有人会买单。好钢要用在刀刃上,同样,LLM、AI 也需要用在最适合的地方。
下节课是我们这套课程的最后一课,我将对这套课程学习到的知识进行全面的回顾和提炼。
思考题
在 AI 助理这个产品中,应用 LLM 有哪些最佳着力点?分别需要解决哪些技术难点?欢迎你在留言区分享你的思考和见解,同时也欢迎你把这节课的内容分享给需要的朋友,我们下节课再见!
精选留言