AAAI2021上五篇表示学习相关论文

AI2年前 (2023)发布 aixure

73 0 0

导读：来源: AMiner科技表示学习（Representation learning），又称学习表示。在深度学习领域内，表示学习是指通过模型的参数，采用何种形式、何种方式来表示模型的输入观测样本 X。表示学习有很多种形式，比如 CNN 参数的有监督训练是一种有监督的表示学习形式，…

来源: AMiner科技

表示学习（Representation learning），又称学习表示。在深度学习领域内，表示学习是指通过模型的参数，采用何种形式、何种方式来表示模型的输入观测样本 X。表示学习有很多种形式，比如 CNN 参数的有监督训练是一种有监督的表示学习形式，对自动编码器和限制玻尔兹曼机参数的无监督预训练是一种无监督的表示学习形式，对 DBN 参数先进行无监督预训练，再进行有监督 fine-tuning 是一种半监督的共享表示学习形式。

近年来，表示学习的研究在深度学习领域引起了广泛的关注，在自然语言处理中，将句子或者词表示成向量的形式已经成为了约定俗成的第一步，在计算机视觉中，使用 CNN 首先处理图像也被广泛认可，而网络表示学习等多个相关领域的兴起也预示着表示学习必定成为未来很长一段时间的研究热点。

1.论文名称：Distilling Localization for Self-Supervised Representation Learning

论文链接：

https://www.aminer.cn/pub/5e982cc591e0119e8a9523e2?conf=aaai2021

简介：对于高级视觉识别，自我监督学习定义并利用诸如着色和视觉跟踪之类的代理任务来学习对区分对象有用的语义表示。在本文中，通过可视化和诊断分类错误，我们观察到当前的自我监督模型无法有效地定位前景对象，从而限制了其提取判别性高级特征的能力。为了解决这个问题，我们提出了一种数据驱动的方法来学习背景的不变性。它首先估计图像中的前景显着性，然后通过将前景复制并粘贴到各种背景上来创建增强效果。该学习遵循实例判别方法，该方法鼓励同一图像的增强特征相似。以这种方式，该表示被训练为忽略背景内容并专注于前景。我们研究了各种显着性估计方法，发现大多数方法都可以改进自我监督学习。通过这种方法，在 ImageNet 分类的自我监督学习以及在 PASCAL VOC 2007 上将学习转移到对象检测方面都实现了出色的性能。

2.论文名称：SeCo: Exploring Sequence Supervision for Unsupervised Representation Learning

论文链接：

https://www.aminer.cn/pub/5f29469191e011376d9c600f?conf=aaai2021

简介：不断创新和突破的势头令人信服地推动了无监督图像表示学习的极限。与静态 2D 图像相比，视频具有更多的维度（时间）。这种顺序结构中存在的固有监督为建立无监督学习模型提供了沃土。在本文中，我们组成了三部曲，从空间，时空和顺序的角度探索顺序中的基本和一般性监督。我们通过确定一对样本是来自一帧还是来自一个视频，以及样本的三元组是否处于正确的时间顺序，来实现监督信号。我们独特地将信号作为对比学习的基础，并得出一种名为序列对比学习（SeCo）的特殊形式。在动作识别（运动学），未修剪的活动识别（ActivityNet）和对象跟踪（OTB-100）的线性协议下， SeCo 表现出优异的结果。更为引人注目的是，SeCo 在最近的无监督预训练技术上取得了显着改进，在 UCF101 和 HMDB51 的动作识别任务中，与完全监督 ImageNet 预训练相比，其精确度分别高出 2.96％和 6.47％。

3.论文名称：Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion

论文链接：

https://www.aminer.cn/pub/5f608a9691e011380587000f?conf=aaai2021

简介：我们期望视频表示学习能够捕获的一个重要因素，尤其是与图像表示学习相反的是对象运动。但是，我们发现在当前的主流视频数据集中，某些动作类别与发生动作的场景高度相关，从而使模型趋向于退化为仅对场景信息进行编码的解决方案。例如，受过训练的模型可能只是因为看到了场地而忽略了对象在场地上作为啦啦队长跳舞，因此可以将视频预测为正在踢足球。这违背了我们对视频表示学习的初衷，并且可能给不同的数据集带来场景偏见，这是不容忽视的。为了解决这个问题，我们建议通过两个简单的操作将场景和运动（DSM）分离，以便更好地关注模型对运动信息的关注。具体来说，我们为每个视频构造一个正向剪辑和一个负向剪辑。与原始视频相比，正/负通过空间局部扰动和时间局部扰动来保持运动不变/破碎，而场景破坏/保持不变。我们的目标是将正片拉近，同时将负片推到潜在空间中的原始片段。这样，可以减小场景的影响，同时可以进一步提高网络的时间敏感性。我们对具有不同主干和不同预训练数据集的两个任务进行了实验，发现我们的方法优于 SOTA 方法，在使用同一主干的 UCF101 和 HMDB51 数据集上分别对动作识别任务分别有 8.1％和 8.8％的显着改进。

4.论文名称：Self-supervised pre-training and contrastive representation learning for multiple-choice video QA

论文链接：

https://www.aminer.cn/pub/5f64806491e011f934ad2478?conf=aaai2021

简介：视频问答（视频质量检查）要求对视频和语言模态有深入的了解，才能回答给定的问题。在本文中，我们提出了一种新的针对多选视频问题的培训方案，该方案以自我监督的预训练阶段和主要阶段的监督对比学习作为辅助学习。在自我监督的预训练阶段，我们将预测正确答案的原始问题格式转换为预测相关问题的格式，以提供具有更广泛上下文输入的模型，而无需任何其他数据集或注释。对于主要阶段的对比学习，我们在与真实答案相对应的输入中添加掩蔽噪声，并将真实答案的原始输入视为正样本，而将其余答案视为负样本。通过将正样本映射到更接近被屏蔽的输入，我们表明模型性能得到了改善。我们进一步采用局部对齐的注意力来更有效地专注于与给定的对应字幕句子特别相关的视频郑我们在与多项选择视频质量检查（TVQA，TVQA +和DramaQA）相关的竞争激烈的基准数据集上评估我们提出的模型。实验结果表明，我们的模型在所有数据集上均达到了最先进的性能。我们还将通过进一步分析来验证我们的方法。

5.论文名称：RSPNet: Relative Speed Perception for Unsupervised Video Representation Learning

论文链接：

https://www.aminer.cn/pub/5fb3bc9891e011e1ed1ef9f7?conf=aaai2021

简介：我们研究了无监督的视频表示学习，该学习旨在仅从未标记的视频中学习运动和外观特征，可以将其重用于下游任务，例如动作识别。然而，由于以下原因，这项任务极具挑战性：1）视频中的高度时空信息；2）缺少用于训练的标记数据。与静态图像的表示学习不同，难以构造合适的自我监督任务来很好地对运动和外观特征进行建模。最近，已经进行了几种尝试以通过视频回放速度预测来学习视频表示。但是，为视频获取精确的速度标签并非易事。更关键的是，学习的模型可能倾向于集中于运动模式，因此可能无法很好地学习外观特征。在本文中，我们观察到相对回放速度与运动模式更加一致，从而为表示学习提供了更加有效和稳定的监督。因此，我们提出了一种感知播放速度并利用两个视频片段之间的相对速度作为标签的新方法。这样，我们就能很好地感知速度并学习更好的运动功能。此外，为了确保学习外观特征，我们进一步提出了以外观为中心的任务，其中我们强制执行模型以感知两个视频剪辑之间的外观差异。我们表明，优化两个任务可以共同持续改善两个下游任务（即动作识别和视频检索）的性能。值得注意的是，对于 UCF101 数据集上的动作识别，在不使用标记数据进行预训练的情况下，我们达到了 93.7％的准确性，这优于ImageNet监督的预训练模型。

# AI