情感识别的国内外研究现状之调研

人工智能应用1年前 (2023)发布 aixure

76 0 0

导读：人的情感状态（如紧张、激动、恐慌、愉快、愤怒等）往往伴随着人体的多个生理或行为特征的变化，某些生理或行为特征的变化也可能起因于多种情感状态。由于情感特征很复杂，难以准确描述一个人的情感状态。目前，学术界关于情感的表示并没有一个十分统一的认…

人的情感状态（如紧张、激动、恐慌、愉快、愤怒等）往往伴随着人体的多个生理或行为特征的变化，某些生理或行为特征的变化也可能起因于多种情感状态。由于情感特征很复杂，难以准确描述一个人的情感状态。目前，学术界关于情感的表示并没有一个十分统一的认识，也没有一个定性和定量的测量评价标准，其主要的表示方法可以分为离散情感模型和维度情感模型两大类。离散情感模型将情感按照多种分类方法进行分类，可以将情感类别分为开心、悲伤、惊讶等；同时，可以由任何一个情感类别或多个情感类别的组合来描述。维度情感模型将不同的情感维度的组合对应不同的维度情感空间，每个情感维度应具有取值范围，情感维度数值可位于该取值范围内的任意位置。任何情感都可以通过一组数值进行表示，这组数值代表了这个情感在维度情感空间中的位置。

情感识别的研究重点就是通过各类传感器获取由人类情感引起的生理指标或者行为特征发出的信号（例如语音、面部表情、手势、姿态、脑电波、脉搏等），以建立可计算的情感模型。在具体的研究中，多模态（主要是音频和视频）情感识别往往备受青睐，但如何抽取有效的特征参数并运用恰当的模型来表达这些特征参数和情感之间的关联性，是亟待解决的一个关键问题。

关于情感语音的声学特征分析主要围绕韵律、频谱和音质特征。研究者已经发现很多声学特征与情感状态有关，如持续时间、语速、基音频率、共振峰、强度、Mel频率倒谱系数（MFCC）等。研究人员将它们表示为固定维数的特征向量，其中的各个分量为各声学参数的统计值，包括平均值、方差、最大或最小值、变化范围等。尽管韵律、音质、频谱这三类特征均对情感识别起到不同程度的贡献，但是他们在不同语料下的作用不尽相同。通常频谱类特征在自然情感识别下较为鲁棒，而韵律和音质类特征在表演语料条件下较为鲁棒，对情感识别结果贡献较大。近年来，神经网络提取优良特征参数的能力越来越受到关注。深度语音情感特征是基于语音信号或者频谱图，并通过语音情感识别相关任务学习到的深度特征。但是由于情感数据集的匮乏，目前应用比较广泛的是通过语音事件检测或者语音情感识别等任务，采用在大规模的训练数据学习到的深度语音特征作为语音情感特征，比如VGGish和wav2vec。

在视频情感识别中，局部二值模式（Local Binary Pattern, LBP）、局部相位量化特征（Local Phase Quantization, LPQ）、Gabor 特征被广泛应用于静态图像的情感识别工作中；时序信息为情感识别提供了关键信息，许多基于上述特征的时空特征，如LBP-TOP（LBP from Three Orthogonal Planes）、 LPQ-TOP在基于视频的情感识别中广泛应用。计算机视觉中常用的方向梯度直方图（Histogram of Oriented Gradient, HOG）描述子、尺度不变特征变换（Scale-Invariant Feature Transform，SIFT）描述子、词袋模型（Bag of Words，BoW）和 Gist描述子均在情感识别工作中有所涉及。另一类是基于深度神经网络的深度情感特征。深度情感特征避免了繁琐的图片预处理以及特征提取，相较于传统方法在情感识别相关任务上的表现更好，对光照、姿态、遮挡物等情感识别鲁棒性更高。深度情感特征主要从人脸情感识别数据集上训练的模型中进行抽取，比如目前应用广泛的深度特征是从人脸情感识别数据集（比如 FER+）上训练的VGGNet、DenseNet等神经网络模型中抽取，并在主流的情感竞赛中取得了不错的结果。

多模态信息的分析方法有很多，从信息融合层次来看，多模态信息融合的方法主要有决策层融合和特征层融合，也有一些学者将这两个融合方式混合使用。决策层融合方式操作方便灵活，允许各个模态采用最适合的机器学习算法进行单独建模。特征层融合的通常做法是将各个通道的特征相串联，组合成一个长的特征向量，然后再将该特征向量放入机器学习算法进行分类或是回归输出。最新的认知神经科学表明，大脑在整合多感官信息时存在多阶段融合的现象，受此启发，研究者提出了多阶段多模态情感融合方法。首先训练一个单模态模型，然后将其隐含状态与另一个模态特征拼接再训练双模态模型，以此类推得到多模态模型。这种建模方法在每个阶段只关注多模态信息的一个子集，然后综合考虑所有模态信息得到预测结果。多模态情感融合的关键在于实现了跨模态之间的有效整合以获得多模态信息的互补，从而比单模态情感识别具有更大的优势。

情感是一个时序变化的行为，其演变都会经历一定的时间，因此需要考虑情感信息的前后依赖性。传统的动态模型如隐马尔科夫模型和条件随机场，由于其可以对时序上下文信息建模的内在属性，取得了比静态模型更好的识别性能。然而这些模型考虑的前后时序信息较短，因此取得的效果有限。基于深度学习的情感识别系统具有更强的非线性建模能力，在情感识别领域取得了广泛应用；但是经典的基于卷积神经网络（Convolutional Neural Networks，CNN）和长短期记忆网络（Long Short-Term Memory，LSTM）的模型在建模过程中对于每一帧预测情感的贡献度是相同的，这种假设存在着不合理性；针对这种问题引入注意力机制，通过全局上下文信息自动学习不同帧对于情感识别的重要性得到相匹配的权重系数，可以实现更有针对性的情感建模，显著提高情感识别的性能。

近年来，情感计算技术与美学的结合得到了广泛的关注，目前广受欢迎的智能体如微软小冰、贤二机器僧等，能够针对客户进行适度的情感分析，并根据分析结果进行对话。这种情感分析的基础就是“情感计算”。麻省理工学院（MIT）计算机专家罗莎琳皮卡德（Rosalind Picard）提出，人们可以利用计算机强大的储存、搜索和运算能力，来计算和分析与情感相关的外在表现，如面部表情、心跳速率、皮肤温度等生理特征。除此之外，情感计算还可以分析艺术家在作品中留下的能体现情感的相关痕迹，如色彩、形状、线条、文本等。在分析过程中，需要借助美学家、艺术理论家对艺术品和艺术家的情感分析，这就是美学参与到人工智能研究的实例之一。同样，情感计算也给美学家提供了一种思路，即艺术家在创作时的情感也许可以量化研究和分析。

情感识别计算在诸多领域得到了应用。在人机交互场景中（如微软小冰），自动感知用户的情感状态并做出相应的反应以提高对话质量；在智能客服领域，客户的情感状态变化可以反映出客服人员的服务质量，当检测到客户出现生气等负向情绪时，可以切换到更有经验的客服人员，节省了大量的人力和物力；在智能教育领域，通过分析教师的情绪以及学生的上课状态，能更加智能地提高教师的教学质量和学生的上课效率；在医疗领域，通过分析病人的情感和心理压力的变化来检测可能出现的一些心理和精神的异常点，可以为医生做诊断提供辅助。

# 人工智能应用