Q12|前沿探索:多模态领域研究热点有哪些?

作者介绍:
赵波,上海交通大学人工智能学院副教授
高欢,快手多模态模型算法负责人
邵帅,腾讯混元专家研究员

Q:在多模态领域前沿探索方面,目前有哪些研究热点?

赵波:去年我们重点研究了视频理解大模型,发现现有多模态模型虽然能较好处理图像文本和短视频(通过拆帧方式),但对于小时级长视频的理解能力仍然有限。特别是在算力受限情况下,处理长视频的海量 token 和复杂时序信息更具挑战性。

近期我们转向研究多模态大模型的空间和时间感知能力。我们开发了一个新的 Benchmark:STI-Bench,系统评估了主流开源和闭源模型在三维空间感知及时间理解方面的表现。该评测涵盖封面场景、室内场景和室外场景三种环境,重点考察模型对物体位置、运动轨迹等定量的时空关系的理解能力。

高欢:从实际应用来看,当前多模态模型在空间方位理解普遍存在不足, 这对 AIGC 应用是致命问题——当用户要求“左手动”时若模型错误生成“右手动”,就会直接导致客诉。

长视频理解是我们另一个重点方向,存在两种典型情况: 一种是内容简单的长视频,只需简短描述;另一种是信息密集的长视频,需要准确捕捉复杂运动、事件序列、背景元素和美学特征,目前还没有模型能在不损失时空精度的情况下完全处理这种复杂信息。近期涌 现的 VideoChat-R1、Kimi-VL 等工作,以及从选择题评分扩展到 caption 生成的研究方向,都显示出这个领域正在被赋予新的使命。

邵帅:在强化学习方面,我们重点研究如何更好地对齐人类美学偏好,优化生成内容的质量。同时,我们也在深入探索指令遵循能力的提升,包括利用自回归模型完成各类编辑任务,实现 ID、风格、文本等多维度的可控生成,以及引入姿态、音频等额外控制条件来驱动数字人生成等应用场景。

在视频生成领域,我们发现当前主流模型大多只能生成 4-5 秒的短视频片段,而实际业务往往需要 3 分钟以上的长视频生成能力。此外,推理速度的优化也是关键问题,过长的生成时间不仅影响用户体验,还会显著增加推理成本。这些研究方向既涉及核心算法突破,也直接关系到技术落地的可行性。

精选留言

  • Geek_1ed796

    2025-07-14 17:01:29

    预测未来几年内视频生成模型能做出10分钟的长视频吗?如果可以,需要解决算法、数据和算力三个维度的哪些困难?