作者介绍:
邵帅,腾讯混元专家研究员
高欢,快手多模态模型算法负责人
Q:当模型推理速度达到实时的时候,会产生什么新的应用场景?
邵帅:传统互联网时代有着严格的速度标准——页面加载超过 1 秒就会影响体验,服务响应超过 3 秒就难以接受。但在当前的大模型应用中,30 秒甚至更长的等待时间变得常见,在高峰时段排队等待 30 分钟的情况也时有发生。有趣的是,用户对这种延迟的容忍度明显提高了,这主要源于大模型带来的前所未有的能力突破。虽然用户勉强接受了这种体验降级,但显然这种交互方式远非理想状态,这也促使行业普遍开始重视 “first-token 延迟”的优化工作。
如果我们能够将模型响应速度提升到实时或秒级,整个交互模式将发生根本性变革。以文生图或文生视频场景为例,当前的交互流程是:输入提示词→点击生成→等待结果→评估质量→可能需要重新生成。这种模式效率低下,未来我们完全可以实现更流畅的体验——比如在绘图场景中实现“一笔一生成”的实时渲染,或者在对话式生成中实现语音输入与图像生成的同步进行,真正做到“边说边生成”。
这种革新将彻底消除传统“输入 - 等待 - 输出”的断点式交互,代之以无缝的实时体验。在数字人直播、智能客服、AI 面试官等需要即时反馈的场景中,这种变革尤为重要。我相信,这种交互革命很快就会成为行业标配,而实现这一目标的关键就在于持续优化模型的响应速度。
高欢:从交互方式和多模态(any to any)的角度来看,如果真能实现实时推理,那么《三体》小说中描绘的许多场景都将成为现实。我们可以轻松地将脑海中的想象即时转化为视觉可见的内容,这将极大地提升我们的预判和决策能力——AI 能实时提供各种信号和依据来辅助我们做出判断。
精选留言