来源:yellrobot
编译:张大笔茹、张秋
普京走路的样子大家应该都见过,大开大合,每一步都写着霸气,很有战斗民族的特色。
但是有一次普京走路却让人感觉好像和平常不一样,步伐有点匆忙,头也比平时要低一些,看上去似乎心事重重。
原来这一天是普京的柔道启蒙教练阿纳托利拉赫林的葬礼。参加完葬礼后,本该乘车离开的普京决定独自在空旷的街上走一会,以排解心中的悲痛。
不同的人走路姿势不同,但是同一个人在不同的时候,走路姿势也有变化。从普京的例子中似乎可以看出,一个人的情绪似乎可以从他走路的姿势中看出端倪。
来自北卡罗来纳大学教堂山分校和马里兰大学的科学家们就开发了一个这样的AI软件,可以通过人走路姿势来判断他的情绪。
AI通过走路识别一个人的情绪
研究人员在文中指出,由于快乐、悲伤、愤怒和中性这四种情绪的特征更加离散,所以研究只设置了这四种分类,但是以后可以通过这四种情绪的组合来表示其他情绪。
研究方法概述:
首先,研究人员使用多个步态数据集来提取视频帧中的情绪特征,这些情绪特征是根据心理学家的研究来进行标注的,包括体态特征和动作特征。同时,研究人员还通过LSTM网络来提取深度特征。
然后,研究人员将情绪特征和深度特征串联起来,用一个随机森林分类器(Random Forest classifier)进行情绪分类。
研究最后的实际效果可以针对一个给定的人走路的RGB视频利用三维人体定位技术来提取一组3D步态,然后从步态中提取上述特征,最后用随机森林分类器进行情感分类,准确率可达80%。
研究方法概述
情感特征计算
情感特征计算包括两方面:姿态特征和运动特征。
姿态特征包括:Volume、Angle、Distance、Area 四个向量。
运动特征包括:Speed、Acceleration Magnitude、Movement Jerk、Time四个向量。
最后将姿态特征和运动特征结合起来,生成情绪特征。
数据集
训练所使用的数据集一共有六个:
Human3.6M
CMU
ICT
BML
SIG
EWalk
其中EWalk(Emotion Walk)是研究人员新自己采集的数据,他们从大学招募了24名志愿者,并且让他们模拟不同的情绪走路,再用相机记录下来。收集后的数据还可以使用GANs来生成新的人类动作的关节序列。
EWalk数据集
监督分类
研究人员使用了LSTM(Long Short-Term Memory)网络来监督分类。
LSTM网络是具有特殊“记忆单元”的神经网络,它可以存储任意时间步长的数据序列中特定时间步的数据值。因此,LSTMs对于捕获数据序列中的时间模式,然后在预测和分类任务中使用这些模式非常有用。
LSTM训练过程
为了监督分类,LSTMs像其他神经网络,是用一组训练数据以及相应的类标签来训练的。然而,与在训练数据中学习结构模式的传统前馈神经网络不同,LSTMs学习的是训练数据中编码模式的特征向量。
LSTMs通过训练一个或多个“隐藏”Cell来实现这一点,其中每个Cell的每个时间步的输出依赖于当前输入和前一个时间步的输出。这些LSTM Cell的输入和输出是由一组门控制。LSTMs通常有三个门:输入门、输出门和遗忘门。
通过LSTM的最后一层可以得到较深的特征,基于LSTM的深度特征也准确地对每一帧的人体关节之间相对位置进行了建模,同时也捕捉到了手和腿的周期性运动。
之后,将情绪特征和基于LSTM的深度特征进行归一化,再将它们串联起来,利用随机森林分类器进行分类,从而得出快乐、悲伤、愤怒或者中性的情绪的概率。
不仅仅用于常规监控的步态识别
研究步态识别技术并不是什么新鲜事儿。十多年来,美国、日本和英国的科学家一直在研究这项技术。
无论是用于监视并及时阻止罪犯行为,还是帮助零售业公司锁定不满的顾客,有的科学家们都试图采用相对复杂的面部识别系统。
但是根据研究,只通过一个人的面部表情并不能完全准确看出一个人的情绪,许多人倾向于用身体表达情绪。
或许以后结合面部表情与步态的情绪识别才是主流。
而基于走路姿势的情绪识别研究除了可用于常规的监控任务,还能够被应用于识别可能患有未确诊的身体或精神疾病的人,以及用来开发具有更强理解能力以及更像人类的交互能力的机器人。
“这项研究可以有很多应用,包括使机器人和自动驾驶车辆更理解人类,以及在增强虚拟现实游戏中提供更具人性化的体验。”UNC的研究教授Aniket Bera说。
论文地址:
https://arxiv.org/pdf/1906.11884.pdf