作者介绍:
高欢,快手多模态模型算法负责人
邵帅,腾讯混元专家研究员
Q:在提升多模态模型的效率(如降低计算成本、加速推理)方面, 当前最值得关注的技术路径是什么?
高欢:由于不同业务场景的需求差异很大,快手目前还没有一个统一的多模态模型能够覆盖所有应用场景。现阶段我们主要采用两种技术路线:一是直接训练小模型,二是通过大模型蒸馏小模型,以获得符合特定业务需求的能力。
近期我们重点关注 token 压缩技术,包括 token merge、token fusion 等技术方向。在一些评测中我们发现,即使去除 70%-80% 的 token,模型性能仍能保持稳定。在实际业务场景中也验证了这一规律:对于那些不需要精细细节处理的任务,采用激进的 token 压缩方案可以大幅缩短推理窗口。当推理窗口缩减至原来的 1/4 时, 推理性能可获得成倍提升。
此外,我们也借鉴了语言模型领域的成功经验,如投机采样等技术。通过小模型来辅助优化推理过程,可以显著降低部署成本。
邵帅:目前我们主要关注两个技术方向:首先是编解码器的效率优化,通过开发更高效率的编码器,可以在几乎不损失模型效果的前提下实现数倍的效率提升,这本质上类似于一个无损压缩问题。另一个重要方向是模型蒸馏技术,特别是针对 Diffusion 模型步数过长的优化。以标准 100 步的模型为例,如果能成功蒸馏到 10 步,就能获得 10 倍的效率提升。
我们的实践经验表明,先训练一个大模型,再用它来蒸馏小模型或减少推理步数,这种方案比直接训练小模型或低步数模型效果更好,这种“先大后小”的蒸馏策略已经成为我们提升模型效率的重要手段。
精选留言