一个轻量级和精确的视听情感识别深度学习模型

柯福苇
导读 Orange Laboratory和Normandie大学的研究人员开发了一种新的视听情感识别深度神经模型,在小型训练集上表现良好。他们的研究预先发表在a

Orange Laboratory和Normandie大学的研究人员开发了一种新的视听情感识别深度神经模型,在小型训练集上表现良好。他们的研究预先发表在arXiv上,遵循简单的哲学,本质上限制了模型可以从数据集获得的参数,并使用简单的学习技术。

用于情感识别的神经网络广泛应用于医疗保健、客户分析、监控甚至动画制作。虽然最先进的深度学习算法已经取得了令人瞩目的成就,但大多数仍然达不到人类对情感的理解。

“我们的总体目标是让计算机能够感知人类表达的各种微妙细节,从而促进人机交互,”参与这项研究的研究员弗雷德里克尤里(Frederic Jurie)告诉TechXplore。"对图像、视频、声音以及声音中包含的情感的感知属于这种情况."

最近,研究已经将包含带注释的视频和视听剪辑的多模态和时态数据集放在一起。然而,这些数据集通常只包含相对较少的标注样本,大多数现有的深度学习算法需要更大的数据集才能更好地执行。

研究人员试图通过开发一种新的视听情感识别框架来解决这一问题,该框架集成了对视听图像的分析,即使在相对较小的训练数据集下也能保持较高的准确率。他们在AFEW上训练他们的神经模型,这是从电影中提取的773个视听剪辑,并用离散情绪进行了注释。

“人们可以将这种模型视为处理视频的黑匣子,并自动推断人们的情绪状态,”Jurie解释道。“这种深度神经模型的一个巨大优势是,它们可以通过分析例子来自学如何处理视频,而不需要专家提供具体的处理单元。”

研究人员设计的模型遵循奥卡姆剃刀哲学原理,即在两种方法或解释中,最简单的是最佳选择。与其他情感识别的深度学习模型相比,它的模型相对简单。神经网络从数据集中学习有限数量的参数,并使用基本的学习策略。

Jurie说:“这个提议的网络是由级联的处理层组成的,这些层从信号到解释提取信息。”“音频和视频由网络上两个不同的通道处理。在这个过程中,它们几乎在最后被合并。”

在测试中,他们的光线模型达到了60.64%的识别准确率。在科罗拉多州举行的ACM国际多模态交互大会(ICMI)上,它还在2018年野生情感识别(EmotiW)挑战赛中排名第四。

我们的模型证明,遵循奥卡姆剃刀原理,即Jurie所说的:“通过总是选择最简单的方法来设计神经网络,就有可能限制模型的规模,并获得非常紧凑但最先进的神经网络,更容易训练。”"这与神经网络日益增长的研究趋势形成了对比."

研究人员现在将继续探索通过同时分析视觉和听觉数据,并使用有限的带注释的训练数据集来实现高精度情感识别的方法。

“我们对几个研究方向感兴趣,例如如何更好地整合不同的模式,如何通过具有完整语义的紧凑描述符(而不仅仅是类别标签)来表达情感,以及如何让我们的算法在较少或没有标注数据的情况下进行学习,”Jurie说。

进一步探索

提出了一种用于视听情感识别的轻量级精确深度神经网络模型。为了设计这个模型,作者遵循一个简单的理念,极大地限制了从目标数据集学习的参数数量,始终选择最简单的获取方法:i)迁移学习和低维空间嵌入来降低表示的维度。视觉信息通过简单的逐帧评分选择过程进行处理。(3)提出了一种简单的帧选择机制对序列图像进行加权。Iv)不同模式的融合发生在预测级别(延迟融合)。我们还强调了少数数据集的固有挑战和模型选择的难度,因为只有383个验证结果。该实时情感分类器在多个测试集上的准确率达到60.64%,在2018年狂野挑战中排名第四。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!