作者介绍:
高欢,快手多模态模型算法负责人
邵帅,腾讯混元专家研究员
Q:在技术落地的业务场景中,端侧算力限制是否为落地的关键瓶颈?如何平衡效果与速度?
高欢:从实际业务落地的角度来看,我们往往需要在模型效果和执行效率之间寻找平衡点。如果单纯为了追求效果而无限制地扩大模型规模,虽然可能获得性能提升,但投入产出比会明显失衡,甚至出现负值。
目前这个矛盾在短期内仍将显著影响我们的技术选型。为此我们正在推进多项优化工作:包括采用更高效的视频编码器、实施 token 压缩技术,以及探索大模型的 INT8 量化方案等。在某些特定场景中,小型模型确实难以满足需求,这就迫使我们必须在现有技术条件下寻找创新性的解决方案。
邵帅:一旦涉及 trade-off,就意味着这个问题已经不存在完美解决方案。
实际决策时,我们不仅需要考虑效果、耗时和用户体验,还必须将训练成本和推理成本纳入考量范围。面对具体业务场景时,我们首先会评估是否可以采用预生成或异步处理方案。比如利用夜间潮汐资源进行离线计算,次日反馈结果;或者提前生成内容建立检索库。这种方式能巧妙规避多个矛盾:既可以使用大模型获得最佳效果,又因异步处理无需担心耗时问题,同时潮汐资源还能大幅降低成本。
但对于必须实时处理的场景,我们通常会设计折中方案。例如同时部署极速版和高质量版双模型,为用户提供选择权:是立即获取普通效果,还是等待更优结果。也可以采用混合策略,先用快速模型生成初稿,再用大模型优化最终质量。另一个思路是允许用户离开当前页面,待结果就绪后通过推送通知召回。
在耗时优化方面,需要区分量变与质变。大多数技术如模型蒸馏、量化只能带来量变改进(如响应时间从 5 秒缩短到 3 秒)。但在直播等特殊场景,耗时优化必须达到质变级别——任何延迟都不可接受。这种情况下,即便牺牲部分效果也要优先保证实时性,否则整个方案就无法落地应用。这种质变优化往往能解锁全新的业务可能性。
精选留言