04｜十倍速提升：从发现真需求到MVP，真的只需要一周吗？

你好，我是产品二姐。

第一个案例我们从提示词工程和RAG技术应用开始，将家电消费品中电子说明书升级到智能说明书，构建出一个“家电消费品使用问答助手”的产品，来代替10人左右的客服团队。

利用这个案例，我会在本节中讲述三方面的内容。

首先，发现需求。在AI技术还没有被广泛认知的时代，主动发现痛点比等着别人提出需求更重要，这也是传统产品经理在转型到AI产品经理必备的思维转变。那怎么才能保证你发现的是“真”需求，而不是做无用功呢？在这个案例中，我会讲述在简单的生活场景中发现需求的过程，从而推导如何在了解“锤子”的基础上找“钉子”。

其次，解决方案设计。也就是针对痛点，从你已知的工具箱中找到合适的工具组合。在这个案例中，我们将主要用到RAG来解决用户痛点。注意，是根据痛点的特点想到用RAG解决，而不是拿着RAG找痛点。

最后，实现方法。最后我会讲述产品经理如何在不需要代码开发的情况下，借助平台快速做出产品MVP。

发现需求：在了解“锤子”的基础上找“钉子”

故事从去年8月我家热水器的一次故障说起。像热水器这种不经常操作的家电设备，一旦发生故障，我的常规操作就是：找出产品说明书 ->查到对应目录->尝试解决 -> 如果解决不了，就打客服电话。

而我在第一步就被卡住了——我找不到说明书。于是我不得求助客服，前后花了十几分钟。

几天后，家人在操作音响设备的时候，发生了同样的故事：相应的产品说明书在到货第二天就被扔到垃圾桶里了，最后不得不求助客服。好在现在的产品都有微信公众号客服，比电话方便多了。

看起来，说明书被抛弃是一种常态。虽然家电消费品的用户能通过微信客服解决问题，但这个服务成本就转嫁给了卖家：他们需要雇佣人工客服来解决这类问题。业界的确有不少AI解决方案，但以规则为基础的旧一代时常出现“人工智障”现象，相信你也遇到过。

为了进一步验证上述假设，我辗转找到了一位电子消费品的硬件产品经理朋友。他们的产品年出货量在一年40万台左右，产品用户是6-18岁的中小学生。用户遇到问题时，可以扫描产品上贴的二维码关注微信公众号，通过公众号消息来进行售后服务。

在与朋友深入交谈后，我发现，在他们的产品售后客服有这么四个特点。

超过80%的用户问题都是关于产品如何使用的基本问题。这些问题通常包括如何安装、如何操作、如何进行日常维护等。
市场上确实有带有AI特性的产品在做，但价格昂贵，且效果不好。
客服成本高。为了应对这些频繁的咨询，厂商不得不雇佣10名全职客服人员来在线回答用户的问题。然而，客服行业流动性也很高。几乎每隔几个月，就会有新员工加入，而每次新员工的培训都需要投入大量的时间和资源，这也增加了企业的运营成本。
长尾诉求分析耗时太长。除了和产品使用相关的问题，他们也很重视剩余 20% 的用户诉求。这类长尾咨询五花八门，每隔一段时间就需要人工处理。一方面他们需要审核客服的回答是否专业，另一方面这些咨询会启发新的产品功能迭代。

你看，当我们从个人角度考虑痛点，仅仅会想如何更快地找到家电消费品的故障排除方法；但从企业角度，就会有更深层次的诉求诞生。

再向上抽象，我们认为只要是有产品说明书的地方，都存在这样的诉求。包括to C的各种硬件产品、家用轿车，到to B的生产设备、专用工具。如果能将这些不同场景的诉求标准化，就意味着一个产品诞生的机会。

而且这些说明书就像是客服坐席的外挂检索知识库，即客服本身不需要记忆这些说明书，而只要知道怎么查这些知识库资料就可以了，这种能力和RAG赋予大模型的能力极其类似。我有一定把握能通过大语言模型加RAG的技术，把这些问题解决好。于是我和朋友开始了一次简单的尝试。

解决方案设计

我们回溯到开头，用户排除家电消费品故障的方法：找到产品说明书 ->查到对应目录 ->理解相应内容->尝试相关方案。

这个过程本质上就是一个RAG的过程，即“检索->理解->输出”的过程。所以，我们很容易就想到把产品说明书作为外挂知识库放在RAG里，这样大概率能解决那些80%的问题。

而对于无法用RAG解答的20%的长尾诉求，我们仍然转到人工客服。但我们可以通过一些方法解决之前“长尾诉求分析耗时太长”的问题。

如果要审核客服回答的专业性，可以用大语言模型作为评判专家，为微信客服的回答打分，辅助人工审核。
如果需要基于用户的咨询启发产品功能迭代，就用大语言模型把用户的诉求打上事前定义好的标签，按照这些标签对诉求进行分析统计，这样很快就能洞察出新的用户诉求。

按照这个思路，我们将这些诉求归结到三个端侧和两个功能模块。

先说三个端侧。

用户端：直接面向家电消费者，用户可以提问并接收回答。
企业售后端：面向企业使用，主要由客服人员、企业管理人员使用，他们可以管理文档，查看微信问答记录。
LLM AI应用端：调用大语言模型的能力生成回答，为人工客服的回答打分，为用户问题打上标签。这一部分是我们本节课的核心工作。

至于两个功能模块，就是“回答产品说明书相关问题” 和“处理长尾诉求”模块。

在下图中，我们可以借助用户旅程将这三个端侧和两个功能模块串联起来讲述。

我来带你梳理一下“家电消费品问答小助手”的用户旅程。

首先由企业售后端上传产品说明书。
产品说明书被分块存储到向量数据库中。
用户在微信公众号提问。
问题经由企业售后端发给AI应用服务侧，把问题经过向量化处理后，作为查询值用于检索RAG向量库中的相关分块。
RAG向量库返回相关度较高的分块。如果返回则继续下一步；如果没有返回则启动“处理长尾诉求”模块的执行，跳转至第9步。
将用户问题与相关分块内容一起传给基座大模型。
大模型生成相关回答给企业售后端。
用户在微信公众号收到回答。
当用户问题与产品说明书不相关，即在第5步中RAG向量库没有返回相关度较高的分块，就会启动这一步的执行，系统会转至人工服务。
当人工客服回答后，系统会把回答内容和用户问题发给大语言模型打分。
大语言模型把打分结果返回给企业售后端，作为未来统计分析使用。
同时，与第9步并行执行，将用户问题发给大语言模型打标签。
标签返回给企业售后端并进行分析统计。

好，到这里为止，我们的方案设计大概有个脉络了。按照传统产品经理的做法，接下我们的工作就是按照上述步骤总结功能清单，写PRD和开发评审，进入开发、测试阶段了。

但是在AI时代，这一过程被大大缩短。AI 产品经理就可以直接借助 Coze、Dify 等 Agent 平台，动手搭出 MVP 验证技术可行性，之后根据MVP的问答效果以及客户反馈再来决定开发人员从哪些方面可以参与到产品落地。所以说，LLM AI不仅改变了产品本身，也改变了产品的开发范式。

接下来我们就看看具体操作。

实现方法：用Dify搭建最简单MVP

在这个案例中，我们使用Dify工具实现产品的MVP。为了不妨碍没有了解过Dify的同学阅读，我来简单介绍一下Dify（更多信息大家可以参考官网学习）。

一句话，Dify是一个大语言模型应用开发的框架工具。做个类比，如果把大语言模型应用比作是攒一台台式机电脑，那么Dify就是一个电脑机箱，能让你轻松对接各种大语言模型，配置各种向量数据库，把AI应用的输出以API或者其他方式开放出来，并且还可以在Dify平台对AI应用进行测试、评估、监控。可以说，它非常适合你有一个初步产品构想，想进行产品概念的可行性和市场验证时使用。

对照刚才方案设计图里的诉求，我们会用到Dify的2个模块。

一个是知识库。对应方案中的知识库管理，企业售后人员可以在这里上传不同的产品说明书，设置不同的检索规则。

另一个是 Workflow。它可以将方案设计图中的不同节点连接起来。比如，在这个案例中，我们会根据知识库的返回结果是否为空确定是否要启动人工客服（步骤9），我们还有三次要使用到LLM来生成回答（7）、评估人工回答质量（10）和给用户问题打标签（12）。这些都需要靠流程把他们串起来。Dify提供的拖拉拽方式能让我们很轻松地搭建出Workflow。

如此，我们很快就在Dify上搭建出了如下图的Workflow。你可以很明显地看出图中各节点对应着我们方案设计中LLM AI应用端的各个功能。

注：为了方便测试，我在这里把自动回答、给客户问题打标签和评估人工回答三个任务合在一起了。因此第一步会判断是否会有人工回答，如果有的话就执行评估人工回答的任务；如果没有，会依次执行自动回答、给客户问题打标签的任务。

注：dify不支持一个节点同时出发两件事情，比如知识库返回为空的时候，不能同时路由到人工回答、给问题打标签两个节点。所以在这里，我把获取人工回答这个步骤直接作为输入项放在第一个节点了。

当我们上传了产品说明书，简单设置提示词后，就可以开始测试了。

但是，事情还没有结束。在接下的MVP验证当中，我们拿客户的真题去做实验，还遇到了不少拦路虎，比如明明在知识库中看到了答案，但就是回答不出来。这些问题，我们在下节课慢慢解决。

阶段复盘

在这之前，让我们先来简单总结一下。

这一节中，我们从个人的细微生活体验出发，挖掘出一个企业级诉求。同时，我们提出了解决问题的方法，借助Dify平台快速的搭建起来一个产品雏形。在这个过程中，我们看到了AI给传统互联网产品设计带来的改变。

关于这节课的重点，我总结了三句话，希望你能记住。

在技术变革初期，AI产品经理必须要对技术有深度理解，才能具备发现需求的能力。
要从那些没能被上一代AI满足的需求中，尝试用新一代的AI来解决。
AI产品经理不用代码也能搭建出产品雏形，大大加速了研发进程，我们一定要主动尝试。

这些变化要求AI产品经理不再是“等风来”，而是“迎风去”。只有这样才能在AI的浪潮中变被动为主动。

所以，主动的产品经理，给你布置一道预习题吧！你有没有体验过一些智能客服，觉得这些客服的回答合理、准确吗？能解决你的问题吗？结合我们在第三节课讲的RAG技术原理，你觉得可能会有哪些原因导致这个问题呢？

思考题

在你的工作、生活中，是不是要经常要从一些固定资料里检索相关内容，亦或是经常要回答别人相似的问题，比如你的自我介绍，你日常负责的产品线功能介绍，接口调用文档等等。这些琐碎的事情会不自觉地占据你的时间，转移你的注意力。

你有没有想过把这些资料整理一下，做一个你自己专属的外挂知识库和“外交”小助理呢？或者，你觉得哪些场景下需要这样的小助理呢？把这些场景列出来，试着按照场景逐步构建出自己的知识库，做一个自己的个人小助理吧。

欢迎你在留言区和我交流。如果觉得有所收获，也可以把课程分享给更多的朋友一起学习。我们下节课见！

>>戳此加入课程交流群

精选留言

韩萌

2024-09-26 18:25:37

RAG 在落地时的核心难点是知识库内容不健全，很多只是都装在了大家的大脑中，大家也无暇抽出时间来整理这些知识。老师在做 RAG 的时候有遇到这种问题吗？又是怎么解决的呢（除了晓之以理动之以情的摆事实讲道理，或通过管理手段强压）？

作者回复

这个问题考验人性和管理了，非常理解你提到的问题。提供一点建议供参考：如果你在职场1.首先争取老板的支持；2.刚开始聚焦于小问题解决，不必开始就给自己定大目标；3.在这个问题上找到你的合伙人（业务专家），把ta和你的KPI绑在一起，可以向上求助资源，也可以挖掘身边积极拥抱变化有兴趣的同学；如果找不到，可能要自己下场；4.当你在一个小问题上有所收获时，你会影响到周围的人。

另外你也可以借助大语言模型来整理知识，比如把你所需要的知识让大语言模型先回答，整理，然后让大家从中纠错，而不是让大家从头开始准备，这样也会大大减轻工作量。

试试看，不要轻易就被这些表面上看起来自己无法控制的事情吓倒，办法总比问题多！

2024-09-26 21:02:10
Yuki

2024-12-03 14:44:00

学到了一个很关键的思维，经常出现的动作，把它打包成产品
kevin

2024-10-31 11:56:08

老师，请问如何对问题打标签，如何对回答打分，这些都需要AI具备相应的行业背景知识呀，这如何解决呢，难道要在提示词中加入小样本示例，都会AI如何打分或者打标签。

作者回复

当然可以，小样本只是方法之一。后面的课程内容还有其他方法，我先把方法列出来，供参考。回头可以在返回来看。

让标签在专业场景打得精准这个诉求，和其它的应用场景在方法上是一致的，只是具体的用例不一样。

我们按照尝试成本从低到高和大家梳理一下

1. 提示词。提示词不是一个一次性的魔法，是渐进调试的过程。调试时会分步骤，当模型返回不满足时可以逐步递进优化，一般遵循以下顺序（这个建议来自课程群的风潇潇同学）
a. 普通口语：比如直接说“请你给下列问题打标签，标签有：交互问题，内容问题，新诉求...，”

b. 结构化提示词：比如用RTF的格式：“Role：xx专家，TASK：给xx加标签， Format xxxformat。”
c. 处理思路cot：说明思路。比如你可以说“将用户的问题进行分解后，每一句进行分析。”
d. good case：这里就是你说的小样本提示了。你可以举例“ 比如几个例子，例1： xxx标签是xx；”
e. bad case：这里你可以补充一些避免发生的例子。

一般来说，如果单纯通过提示词能达到90% 的正确率，就可以加上人工辅助审核的方式开始使用了。

2. 微调。就是专门做一个模型来打标签，如果用量不是特别大，并不推荐用这种方法哈，因为用量大到一定程度成本才划得来。

微调的本质是：把小样本few shots 变为许多样本作为训练数据，让模型具备一些“模式”。比如这里你可以给出1000组问题 vs 标签的数据，用于训练模型。你到13，14,15节会有更深刻的体会。

2024-11-01 11:55:42
我

2024-10-10 11:20:04

提问！二姐在dify里设置的流程怎么跟一开始的流程图不一样呀？流程图是先查询向量库，在判断人工还是大模型回答，dify里上来就先判断了

作者回复

哈哈，真好眼力~
其实，这里二姐是为了方便测试，在这里把自动回答、给客户问题打标签和评估人工回答三个任务合在一起了。因此第一步会判断是否会有人工回答，如果有的话就执行评估人工回答的任务；如果没有，会依次执行自动回答、给客户问题打标签的任务。
但是图片确实会引起误解，会加一个图片说明，感谢感谢~

2024-10-11 11:25:44
阿呆ଳ

2024-10-22 15:48:40

二姐好，对于您设置的dify的workflow，我有个问题：如果某个问题没有人工回答，而且说明书中又没有相关回答，那好像就只会执行“为问题贴标签”了？那用户的问题还是没有解答呀

作者回复

抱歉，这里的dify workflow 确实没有和大家说清楚，dify不支持一个节点同时出发两件事情，比如知识库返回为空的时候，我希望它同时路由到人工回答、给问题打标签两个节点，但是Dify不能这样。所以，这种情况下应该做两个独立的工作流，但是为了一次说明，我就把人工回答作为一个输入项放在开头的第一个节点了，相当于人工回答的内容我直接给出到第一个节点了，取巧了一下。

2024-11-01 13:16:59
一一

2025-04-22 14:31:39

老师，请问有上文提及搭建好的dify链接吗？

作者回复

现在没有了，可以网上找一个通过dify搭建一个客服的视频照着操作，步骤是一样的

2025-07-24 14:33:08
涌兒Yong

2024-10-20 22:06:27

老手你好，有几个问题想请教下
1. 关于AI生成效果的好坏问题，如何抽象化问题，这种也算是AI产品经理职责一部分吗？例如，系统给出的回答较为死板、答非所问，甚至涉及到其他领域的内容，这种情况是由产品去拆解处理，还是AI提示词工程师等，根据反馈进行拆解和优化？
2. 如何评估回复评分的标准？感觉这类指标不太容易量化，具体该如何衡量？
3. 当有新的问答（QA）内容出现时，要怎么进行及时的补录和更新，以及调回的检测。感觉加了东西，会不会还导致了之前测试的一些冲突
4. 一般是是由专门的AI产品经理，去跟进维护么？感觉在一些小公司里，产品有时候还需要兼顾前后端的设计。感觉得摇多个人，否则有点忙不过来

作者回复

1. 关于职责划分每个组织都不一样，这里不做评论哈。让AI生成效果提升的方法是要有好的评估标准，一般可以有业务专家来给出，这里需要产品经理与业务专家绑在一起评判。如果业务专家说有问题，那么我们就来按照RAG流程的每个环节逐个检查，发掘出为什么不能给出好回答的原因。
2. 和1一样，需要业务专家的评判，这些评判可以是过去历史中优秀的回答。很难说一下子就能有一个非常好的标准。对于RAG来说，大体上可以分为两个角度：一是相关性（有没有脱离主题），二是正确性（是不是真实），详细的指标概念可以参考：https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/
定义了指标，就可以打分，打分既可以是人来评判，也可以是性能较好大语言模型评判，参考02节中模型选择中三看一测中的一测。
3. 问答库确实不是一次性工程。及时补录就是录入向量数据库。在05节节约成本方法里也有讲到将一些固定常用的回答纳入问答库。如果导致之前的测试冲突也要及时处理，确实存在，如果发现就需要及时处理，当然你也可以借助大语言模型来处理，比如让语言模型自己来检查是否和新录入内容有冲突的地方。
4. 任务总有排期和优先级，可以按照产生的影响来排一下手上的任务。如果忙不过来，及时向上汇报，老板就是用来给你找资源的。当然如果你自己是老板，那么就要排优先级了。

2024-10-21 16:37:27
Geek_ee95b7

2024-09-25 15:38:05

追更，顺便咨询一下，第11节课大概什么时候更新呀？

作者回复

每周三节（国庆不更新），正常的话在10月11号

2024-09-25 19:01:21
Geek_8d7a50

2025-06-08 13:53:38

老师好，请问产品经理搭建了agent，并且对大模型选项、效果进行初步测评后，进行市场验证，那研发或者算法负责做什么呢？是对大模型进行微调吗？我理解目前通用大模型对于一般的业务场景，经过提示词rag等，就已经足够用了，不太理解之后的工作是怎么配合的。

作者回复

目前这种状态，产品经理做得好确实可以兼任多职，至于哪个公司定什么职责，其实是看团队，看人的，现阶段都比较模糊，可以不用太刻意遵照这些职能角色而行事

2025-07-24 14:31:34
末日，成欢

2025-03-03 21:11:50

是用解决方案设计转化为Workflow上的步骤吗

作者回复

是的

2025-03-05 13:15:57
kevin

2024-10-31 11:22:15

整个dify的操作，录个视频就更好了。

作者回复

这是极客时间的音频形式哈，dify操作可以先看看dify的官方文档，其次是网络上应该有很多视频

2024-11-01 08:40:11
Grace 雨婷

2024-09-27 10:32:56

请问coze和dify各自的优劣势，更适合哪类服务场景呢？因为我之前用coze比较多，是否有必要再学习使用dify呢？
另外除了coze和dify，还有其他大模型平台推荐的吗？

作者回复

dify和coze差不多，一个就可以使用了。其他的AI应用开发平台还有fastGPT，搜一下应该还会有一些，不过不会有太多差异。

2024-09-27 16:45:34