多模态学习中的信息融合和对齐

你好,我是王天一。

你听说过“望闻问切”这个术语吗?这是中医诊断疾病的重要方法,传说源自战国时期的名医扁鹊,并一直沿用至今,成为中医辨证施治的重要依据。其中,望诊是通过观察患者的面色、舌苔、神态等来获取身体内部的健康信息;闻诊是通过聆听患者的声音和嗅取患者的气味来分辨病情的虚实寒热;问诊是通过直接询问患者症状、病史以及生活习惯等情况来获取更多关于患者病情的详细信息;切诊是通过诊察患者的脉象、按压患者的腹部或其他部位来进一步判断病情。

这一方法通过视觉、听觉、嗅觉、触觉等多种来源全面了解患者的病情,为中医临床提供了宝贵的诊断信息,也高度契合了我们今天分享的主题:多模态信息处理

什么是多模态学习?

对于计算机来说,多模态信息处理的对象通常是存储在关系数据库当中的结构化数据,但大数据的横空出世改变了一切。大数据天然具有多源性和异构性,种类丰富的非结构化数据自然给数据处理提出了全新的挑战:要从多种来源、不同格式的数据中针对同一个对象提取信息并进行整合,就需要有全新的技术手段

多模态数据是相同语义信息在不同的空间维度下的记录,“相同语义信息”意味着虽然数据的形式不同,但描述的必须是同一个客体对象。比如互联网上关于某位公众人物的视频、图片、语音、文本等数据,再比如医学上对同一个病灶进行不同类型的检查得到的B超、CT、核磁共振等医学影像,以及描述同一语义的词向量、词袋、知识图谱以及其它语义符号单元等,这些都属于多模态数据的范畴。

在此基础上,多模态学习(Multimodal Machine Learning)旨在联合表示不同模态的数据,捕捉不同模态之间的内在关联,实现不同模态的信息相互转化,从而学习到更好的特征表示。

从上面的任务可以看出,多模态学习的本质问题在于构建出一个共享表示空间,实现有效的跨模态匹配。在这个表示空间里,来自多个模态的特征能够相互融合,从而建立起各个模态之间的对应关系。在学习过程中,模态之间的融合和对齐都是核心环节。

多模态信息融合

多模态信息融合就是将来自多种模态的信息集成在一起,这意味着对输入的异质数据进行统一的编码和表示,保证不同模态的信息在新的表示空间中具有一致的语义或相关性。

多模态信息融合的主要方法包括联合融合方法协同融合方法。联合融合方法是针对每个模态的数据单独设计编码器或特征提取器,得到单模态的表示,再将每个单模态表示投影到一个共享的语义子空间,在这个子空间中对不同模态的特征进行融合等处理。由于共享语义子空间的投影可以在不同的融合阶段进行,联合融合方法也可以进一步分为特征级融合模型级融合决策级融合等三种。

特征级融合是指直接将不同模态的原始数据或已从原始数据中提取的特征融合在一起,形成一个整体的表示作为后续模型的输入。前文提到,互联网上关于某个共同对象的图片、语音、文本等数据是典型的多模态数据,则图像可以使用卷积神经网络提取特征,文本可以使用词嵌入模型提取特征,音频可以使用声学方法提取特征。将这些特征以张量积的方式形成新的特征向量,就完成了特征级融合,融合后的多模态共享语义信息就可以用于执行后续的任务了。

模型级融合是在模型内部将不同模态的特征信息进行融合,实现跨模态的信息交互和整合。这类方法的早期代表是多核学习方法,这一方法借鉴了支持向量机的设计思路,其目的是学习多个核函数的组合而非单一的核函数,每个核函数可以将原数据映射到不同的高维空间,提取不同形式的特征,结合多个核函数的优势就能够提升模型的性能,结合的方式是找到最优的核函数组合。

随着深度学习的快速发展,基于神经网络的融合方法已成为模型级融合的主流方法,生成对抗网络和注意力机制都足以应对各类融合的场景。模型级融合可以减少模态间的不匹配问题和维度差异问题,但每个模态都需要设计单独的网络结构并调参,这无疑会大大增加运算的负担。此外,模型级融合还需要设计合适的融合策略和网络架构,以有效地整合不同模态的信息。

决策级融合是将每个模态的数据独立地用于任务中,得到不同的输出结果(决策),再根据一定的策略将不同模态的决策组合起来,形成最终的决策。投票法是最简单的融合策略,直接利用“少数服从多数”的方式,选择在不同模态下出现最频繁的决策结果作为最终输出,这相当于每个模态的决策具有同等的权重。如果给每个模态的决策赋予不同的权重系数,得到的就是加权平均法。

和前两种方法相比,决策级融合将每个模态视为完全独立,单独训练、单独分析,融合过程与模态特征完全无关,虽然不能利用模态之间的相关性,却能适应模态缺失的问题,具有更大的容错空间。

与联合融合不同,协同融合方法是让约束条件作用在每个单独的模态上,保证不同模态之间的特征具有互补性,以此实现模态之间的相互协同。不同模态之间固然具有相关性,但其差异性才是协同融合的关注焦点,其目的就是把“横看成岭侧成峰,远近高低各不同”的信息组合起来,形成对所分析对象的完整描述。目前,协同融合方法主要分为交叉模态相似方法层级空间融合方法

交叉模态相似性方法用于比较不同模态数据之间的相似性。例如,文字“猫”所表示的含义要与猫的图像表示尽可能接近,而与狗的图像尽可能远离,而接近的程度,即相似性可以在基于距离、余弦、信息熵等度量的指标中按需选择。

层级空间融合则是将不同模态的数据在不同层次上进行融合,以捕捉它们之间的相关性和互补性,不同的层次可以根据实际任务的要求来做出定义。层级空间融合能够充分利用不同模态数据的互补性,提高模型的表达能力和性能,但这需要建立在不同模态的数据满足一致性的前提下。

多模态信息对齐

多模态信息对齐则是为同一个对象的不同模态信息建立对应关系,电影制作中图像、音轨和字幕之间的时间对齐就是典型的模态对齐任务。

在多模态对齐任务中,需要对每个模态单独进行处理,通过在不同模态的数据之间建立和发现对应关系,以实现信息的有效整合,从而增强对复杂场景的理解能力。根据是否存在标签的区别,对齐方法可以分为显式对齐和隐式对齐两类。

显式对齐直接以使多模态子元素的对齐程度最大化为目标,可以简单理解为“为了对齐而对齐”。这类方法通常通过明确的算法或标签对不同的模态信息进行对齐,又可以分为监督对齐和无监督对齐两类。监督方法使用有标签的数据来训练模型,实现来自不同模态的数据之间有效的对齐和整合。由于有人工标签的辅助,监督方法具有高效精确的优点,但也需要专门的标注过程。无监督对齐则不依赖于标注数据,一般通过度量统计特性来完成对齐任务。这种方法适用于标注数据稀缺或获取成本高昂的领域,但其性能难以保证。

与显式对齐不同,隐式对齐不是直接以对齐作为目标,而是当作在主要任务的执行过程中的一个中间步骤,对齐过程也以隐藏的方式完成。这类方法不是直接调整来自不同模态的数据,而是通过学习共享的潜在空间来提高任务性能。近年来,基于神经网络的方法已经成为解决隐式对齐问题的主要方法。而在神经网络中引入注意力机制,能够有效识别并聚焦数据中最有价值的信息,从而提升任务性能。由于隐式对齐是将对齐作为待解决任务的一个中间环节,因而能够实现端到端的学习,直接优化任务性能,同时也能学习到更加通用的模态对齐,从而提高模型在未见数据上的泛化能力,这一点在机器翻译领域体现得尤为明显。

总结

我把这一节的重要内容梳理成了一张知识脑图,你可以看一看。

随着大模型技术的快速发展,多模态数据处理已经成为人工智能的必备功能,大多数复杂的信息处理任务也存在这方面的需求。但在融合和学习等关键任务上,多模态学习都还存在着不小的进步空间。如何在越发多样化的数据中提取信息,将是人工智能走向通用化过程中一个待解决的重要课题。

如果你有新的想法,欢迎在留言区和我一起分享和交流,我们下一节见。

精选留言