Q19｜实时推理：这会带来哪些新应用场景？

作者介绍：
邵帅，腾讯混元专家研究员
高欢，快手多模态模型算法负责人

Q：当模型推理速度达到实时的时候，会产生什么新的应用场景？

邵帅：传统互联网时代有着严格的速度标准——页面加载超过 1 秒就会影响体验，服务响应超过 3 秒就难以接受。但在当前的大模型应用中，30 秒甚至更长的等待时间变得常见，在高峰时段排队等待 30 分钟的情况也时有发生。有趣的是，用户对这种延迟的容忍度明显提高了，这主要源于大模型带来的前所未有的能力突破。虽然用户勉强接受了这种体验降级，但显然这种交互方式远非理想状态，这也促使行业普遍开始重视 “first-token 延迟”的优化工作。

如果我们能够将模型响应速度提升到实时或秒级，整个交互模式将发生根本性变革。以文生图或文生视频场景为例，当前的交互流程是：输入提示词→点击生成→等待结果→评估质量→可能需要重新生成。这种模式效率低下，未来我们完全可以实现更流畅的体验——比如在绘图场景中实现“一笔一生成”的实时渲染，或者在对话式生成中实现语音输入与图像生成的同步进行，真正做到“边说边生成”。

这种革新将彻底消除传统“输入 - 等待 - 输出”的断点式交互，代之以无缝的实时体验。在数字人直播、智能客服、AI 面试官等需要即时反馈的场景中，这种变革尤为重要。我相信，这种交互革命很快就会成为行业标配，而实现这一目标的关键就在于持续优化模型的响应速度。

高欢：从交互方式和多模态（any to any）的角度来看，如果真能实现实时推理，那么《三体》小说中描绘的许多场景都将成为现实。我们可以轻松地将脑海中的想象即时转化为视觉可见的内容，这将极大地提升我们的预判和决策能力——AI 能实时提供各种信号和依据来辅助我们做出判断。

Q19｜实时推理：这会带来哪些新应用场景？

精选留言