作者介绍:
邵帅,腾讯混元专家研究员
高欢,快手多模态模型算法负责人
赵波,上海交通大学人工智能学院副教授
Q:多模态技术中,处理不同模态数据(如视频、图像、文本)时,分别面临的核心技术挑战是什么?
邵帅:目前最核心的难题在于多模态对齐与融合的问题。不同模态数据在数据结构上都存在显著差异,这种根本性的差异导致我们需要解决两个关键技术难点:一方面是如何设计通用的 tokenizer 来实现跨模态的统一表征,另一方面是如何建立有效的模态对齐机制来实现异构数据间的语义关联。
在实际应用过程中,我们还面临着数据平衡的挑战。当训练数据中某一模态占据优势时,往往会导致其他模态的性能出现退化。此外,在多任务学习场景下,当模型需要同时处理多种不同类型的任务时,经常会出现任务之间的相互干扰问题,以及计算资源如何合理分配的难题。
高欢:与静态图像不同,视频是由连续帧构成的时序数据,这对当前受限于上下文窗口的自回归大语言模型提出了更高要求。目前常见的解决方案包括帧采样、降低分辨率增加帧数,或是采用 token merge 技术来压缩视觉 token。但每种方法都不可避免地会损失部分信息,这种信息损耗在进行深度多模态理解时尤为关键。
作为短视频平台,快手每天都需要处理海量的新数据,这带来了热门概念快速更迭的问题。一个今天爆火的舞蹈可能明天就过时了,而训练一个模型往往也需要一整天时间,这就导致模型刚训练完就可能面临失效的风险。为了解决这个问题,我们探索了 RAG 等技术方案,以及轻量级训练方法来快速融入新概念。
短视频数据还呈现出独特的静态特征:平台上大量视频包含特效、突破物理规律的创意内容,这些与真实世界的物理规律存在显著差异。虽然传统训练方法难以准确理解这类内容,但它们恰恰是文本生成视频中最具价值的部分。
这些技术挑战最终都指向推理成本的增加。为了处理更长的视频序列,我们需要引入更多帧和思维链,这直接导致推理时间延长。同时,某些场景下小模型完全无法胜任,必须使用大模型并经过专门训练才能达到可用水平。
赵波:我们课题组目前专注于长视频理解大模型的研究,核心要解决的问题是如何高效提取和压缩视频中的信息。正如高欢老师提到的,视频数据最大的挑战在于其冗余性——长视频会产生海量的 token。我们近期完成的 Video-XL 和 Video-XL-Pro 两项工 作,分别从两个维度进行了技术创新:一是充分利用大语言模型自身的 token 压缩能力,二是从源头压缩视觉 tokenizer 产生的 token 数量。
精选留言