作者介绍:
邵帅,腾讯混元专家研究员
高欢,快手多模态模型算法负责人
Q:多模态理解和生成的区别?以及结合点?有没有什么融合趋势?
邵帅:我认为一个非常重要的结合场景是:如何利用理解模型来提升生成模型的性能。从技术实现上,可以将其分为训练前、训练中、训练后三个阶段。
训练前,理解模型至少可以发挥两个作用:数据清洗和数据标注。腾讯混元的实践经验表明,数据质量与生成效果呈正相关,因此我们在这一环节投入了大量优化工作。训练过程中, 强化学习是一个关键能力,而强化学习通常依赖奖励模型,而奖励模型本身就是一个理解模型。
训练后,生成模型的应用可以进一步分为生成前和生成后两个阶段:生成前,目前常用的方法是 prompt rewriting。我们发现,许多用户输入的 prompt 较为简单,通过优化用户的原始 prompt,可以显著提升输出质量。生成后,我们也在探索多种优化手段,比如 test-time scaling;我们也会做 post-filtering,例如,在某些场景下,我们可能一次性生成 10 张图,但仅返回其中 4 张质量最佳的结果给用户。
目前,腾讯混元已经观察到生成与理解一体化的明显趋势,并且这一进展可能会比预期更快。如果这类一体化模型能结合强大的语言模型,还能复用其知识和推理能力,进一步提升生成效果。
高欢:我们认为模型架构并非当前最重要的考量因素,关键还是在于技术路线的选择和应用目标。例如,在 GPT-4o 的技术方向上,上海交通大学人工智能学院赵波老师团队此前发表的 EMU-3 论文已经验证了相关技术路线的可行性。快手快意多模态算法团队主要从 Diffusion 模型的角度进行探索。Diffusion 模型非常依赖对用户意图的理解,以及多模态信息的处理能力。虽然传统观点认为自回归模型更适合理解任务,Diffusion 模型更适合生成任务,但我们认为未来应该以实际应用效果为导向。
精选留言