Q14|技术、数据、应用:多模态下一阶段突破?

作者介绍:
邵帅,腾讯混元专家研究员
高欢,快手多模态模型算法负责人
赵波,上海交通大学人工智能学院副教授

Q:多模态大模型的下一阶段突破可能来自哪些方向?技术、数据、 应用落地分别将会有什么样的突破?

邵帅:数据层面即将迎来重要突破:通过利用更多模态的数据,即使某些模态存在缺失,也能训练出具有更强指令遵循和泛化能力的模型。

第一,当前的数据清洗流程虽然提升了数据平均质量,但也损失了大量潜在信息。未来我们需要探索如何增强模型的抗噪能力,从低质量数据中提取更多信息,或通过修复技术提升数据质量。

第二,个性化将成为关键发展方向。每个用户都有独特的兴趣偏好和需求表达方式,可能是通过文本,也可能是通过交互反馈。如何为不同用户或不同场景提供差异化能力,实现真正的“千人千面”, 将是重要的发展方向。

第三,应用层面将迎来显著增长。目前已有相对成熟稳定的技术方案可供实际使用,不再局限于研究探索阶段。同时,技术应用的耗时和成本都大幅降低。用户认知也发生了重要转变:相比一两年前人们更多是抱着尝鲜心态体验新技术,现在用户对模型的能力边界已有清晰认知,越来越多的人开始思考如何利用这些模型解决具体问题,因此 2025 年必将成为 AI 应用大规模落地的一年。

高欢:就像语言模型从最初的百花齐放发展到后来的大一统,从单纯的语言理解演进到 RAG 和智能体等更复杂的应用,多模态技术也将完整地经历这个过程。未来很可能会出现一个真正实现 “any to any” 转换的 all in one 统一模型,这已经成为行业共同努力的方向。

展望未来,像 VLA(视觉语言动作)这样的具身智能应用将会更加丰富。从技术发展节奏来看,2023 年第一季度 GPT-3.5 的出现推动了语言模型的快速发展,2024 年则是文本到视频(T2V)技术突飞猛进的一年。而今年 OpenAI 推出的图片编辑工具,已经展现出向 “any to any” 模型发展的趋势。因此,我们有理由期待 2025 年可能成为 “any to any” 多模态技术爆发的关键年份。

赵波:我们近期主要关注的方向是大模型的空间感知能力。当前多模态模型主要聚焦于平面 2D 视觉和语义理解,而我们正在推动其向三维空间感知方向发展,让模型能够更深入地理解和感知物理世界。在多模态生成模型方面,我们正在进行视频生成技术的创新探索,核心突破点在于赋予视频生成模型记忆能力——当模型再次进入同一场景时,能够保持生成场景中物体的连续性。这项技术突破将有效解决现有视频生成中的一致性问题,为内容创作带来新的可能性。

精选留言