现实环境中的多模态情感分析: Comparison
Please note this is a comparison between Version 2 by Fangyi Wang and Version 1 by Fangyi Wang.

在现实世界中,多模态情感分析(MSA)通过融合多模态信息来捕获和分析情感,从而增强对真实世界环境的理解。关键挑战在于处理采集数据中的噪声并实现有效的多模态融合。在处理数据中的噪声时,现有方法利用多模态特征的组合来减轻由自动语音识别(ASR)模型的性能限制引起的情感词识别错误。

  • real world
  • multimodal sentiment analysis

1. 简介Introduction 

在智能人机交互的研究领域,识别、分析、理解和表达情感的能力对于智能机器至关重要。因此,利用计算机技术自动识别、理解、分析、分类和响应情绪,对于建立和谐的人机交互环境、提高交互效率、增强用户体验具有重要价值[1231-3]。以前的研究[45]主要集中在使用文本数据的情感分析上,并取得了显着的成就。然而,与单峰分析相比,MSA可以有效地利用来自不同模态的协调和互补信息来增强情感理解和表达能力,并提供更符合人类行为的更丰富的信息。
近年来,人们对用于情绪分析的多模态数据越来越感兴趣。MSA旨在利用文本,图像,语音等之间的信息交互,使机器能够自动利用全面的多模态情感信息来识别用户的情绪倾向。早期研究通常采用多模态融合[6],通过早期融合,直接结合多个原始特征来源[78],或晚期融合,聚合多个情感分类器的决策[910119-11]。然而,前一种方法可能会导致大量冗余输入向量,导致计算复杂性增加,而后一种方法可能难以捕获不同模态之间的相关性。因此,在多模态情感分析中提出了多种特征融合方法。现有的融合方法包括基于简单运算的方法[12,13]、基于注意力的方法[14-15,16,17]、基于张量的方法[18]、基于翻译的方法[19]、基于GAN的方法[20]、基于路由的方法[21]和分层融合[22232422-24]。].尽管融合方法种类繁多,但基于注意力的融合方法显示出优越的效率和性能[25]。然而,仅对注意力机制中每种模态的特征进行加权和求和,可能无法有效适应不同模态之间特征的差异。因此,某些模态特征可能会被忽略或低估,最终影响融合特征表示的精度。此外,不同模态之间可能存在复杂的非线性相互作用,注意力机制可能难以准确地对这种关系进行建模,从而影响特征融合的有效性。此外,以前的方法很少考虑在单一模态内和模态之间同时利用相互作用信息。

2. 现实环境下的多模态情感分析

情感计算作为一个新兴的跨学科研究领域,自1995年推出以来得到了广泛的研究和探索[26]。以前的研究主要集中在单峰数据表示和多模态融合上。在单模态数据表示方面,Pang等人[4]是第一个采用基于机器学习的方法来解决文本情感分类的人,通过使用电影评论作为数据集,取得了比传统的手动注释更好的结果。Yue等人[5]提出了一个名为Word2vec-BiLSTM-CNN的混合模型,该模型利用卷积神经网络(CNN)的特征提取能力和双向长短期记忆(Bi-LSTM)的能力来捕获文本中的短期双向依赖关系。他们的结果表明,混合网络模型在短文本环境中优于单结构神经网络。Colombo等人[27]根据颜色、暖度、位置和大小等特征对图像和视频数据中的不同区域进行分割,使他们的方法能够获得超越对象本身的更高语义级别。他们将这种方法应用于对艺术相关图像的情感分析。Wang等人[28]利用神经网络对图像进行面部特征提取。Bonifazi等人[29]提出了一个时空框架,该框架利用了所呈现情境中固有的情感背景。他们利用这个框架来提取有关用户对给定主题的情绪的情感信息的范围。然而,在情感分析中使用单模分析存在一些局限性,因为人类通过各种方式表达情绪,包括声音、内容、面部表情和肢体语言,所有这些都被共同用于传达情绪。 与单模数据相比,多模态数据从不同角度描述对象,提供更丰富的信息。不同的信息形式在内容方面可以相互补充。在多模态融合的背景下,既往研究可分为三个阶段:早期特征融合、中级模型融合和后期决策融合。Wollmer等人[30]和Rozgic等人[31]整合了来自音频,视频和文本来源的数据,以提取情绪和情绪。Metallinou等人[32]和Eyben等人[33]将音频和文本模式结合起来进行情感识别。这些方法依赖于早期的特征融合,通过简单的串联将它们映射到相同的嵌入空间,并且不同模态之间缺乏交互。对于后期决策融合方法,首先在每种模态内学习内部表示,然后学习模态之间的融合。Zadeh等人[18]利用张量融合网络来计算单峰表示之间的外积,从而产生张量表示。Liu等人[34]引入了一种低秩多模态融合方法,以降低基于张量的方法的计算复杂度。这些方法旨在通过分解高维融合张量的权重来提高效率,减少冗余信息,但他们难以有效地模拟多态间或特定模态动力学。中间模型融合融合了早期特征融合和后期决策融合的优点,便于融合点的选择,实现多模态交互。Poria等人[35]进一步扩展了卷积神经网络(CNN)和多核学习(MKL)的组合。与Ghosal等人[36]相反,Poria等人利用一种新的融合方法来有效地增强融合特征。Zhang等人[37]引入了一个量子启发框架,用于双模数据(文本和图像)的情感分析,以解决语义差距并使用密度矩阵对两种模态之间的相关性进行建模。然而,这些方法对特征差异的适应性有限,并且存在明显的特征冗余。关于分层融合,Majumder等人[22]

采用了分层融合策略,最初结合了两种模态,随后整合了所有三种模态。然而,这种方法难以充分捕捉模态内动态。Georgiou等人[23]引入了一个深度分层融合框架,将其应用于涉及音频和文本模式的情感分析问题。Yan等人[24]引入了用于地理定位的分层注意力融合网络。然而,这些方法忽略了模态之间复杂非线性相互作用的潜在存在。此外,许多聚变方法很少考虑同时利用模式内和模式间的相互作用。Verma等人[38]强调,每种模态都具有独特的模态内特征,多模态情感分析方法应同时捕获共同的模态信息和独特的模态内信号。 除了考虑MSA模型中的融合策略外,解决模态数据中存在的噪声也至关重要。Pham等人[39]提出了MCTN模型来处理视觉和声学数据的潜在缺失。Liang等人[40]和Mittal等人[41]也专注于解决视觉和声学数据引入的噪声,依靠通过将音频与实际文本对齐而获得的单词级特征。Xue等人[42]引入了一个多级注意力图网络来减少模态内部和模态之间的噪声。Cauteruccio等人[43]引入了一种字符串比较指标,可用于增强异构音频样本的处理,从而减轻与模态相关的噪声。但是,这些模型没有调查ASR错误对MSA模型的影响。值得注意的是,Wu等人[44]利用情感词位置检测模块来确定文本中情感词最可能的位置。他们使用多模态情感词细化模块动态细化情感词嵌入,该模块将改进的嵌入作为多模态特征融合模块的文本输入。这种方法减少了 ASR 错误对 MSA 模型的影响。情感词位置检测模块和多模态情感词细化模块已被证明非常有效,在真实数据集上实现了最先进的性能。然而,最初的SWRM只是在特征融合中连接模态,而没有捕获模态内和模态间特征,即使存在真正的相关性。
Video Production Service