Nvidia新技术可减少20倍AI模型训练资料量

AI1年前 (2023)发布 aixure

78 0 0

导读：Nvidia发展新的资料增强技术，可以大幅减少训练人工智能模型所需要的资料量，研究人员仅使用来自大都会艺术博物馆的一个小型资料集，就让人工智能模型能够创造出，过去可能需要数万，甚至可能超过10万训练图像，才能产生的精美图像结果，而这项研究成果可用…

Nvidia发展新的资料增强技术，可以大幅减少训练人工智能模型所需要的资料量，研究人员仅使用来自大都会艺术博物馆的一个小型资料集，就让人工智能模型能够创造出，过去可能需要数万，甚至可能超过10万训练图像，才能产生的精美图像结果，而这项研究成果可用于广泛的领域上，包括医疗保健等应用。

Nvidia将一种称为ADA（Adaptive Discriminator Augmentation）的技术，应用在生成对抗网络StyleGAN2模型上，使得训练图像的资料量，可大幅减少10到20倍，而且获得同样良好的效果。生成对抗网络（GAN）的特性之一，便是训练资料越多，模型产生的结果越好，生成对抗网络由生成器（Generator）与判别器（Discriminator）两个组件组成，生成器负责合成图像，而判别器则要识别出图像真伪，并反馈有用的参数给生成器，使得生成器之后能够产生更好的结果。

但是一旦训练资料不足，判别器便无法提供生成器足够的信息产生好结果，就像是新手教练没有够多的经验指导球员，球员也就难以精进球技一样。因此生成对抗网络通常需要5万到10万的训练图像，才能训练出高品质的模型，但问题是，在许多使用案例上，并没有足够多的样本图像可以取用，仅以数千张图像训练生成对抗网络，通常无法产生逼真的结果，而且会出现过适（Overfitting）的现象。

过去的研究也曾经以资料增强的方法，减少训练生成对抗网络所需要的资料量，但是结果并不好，因为生成对抗网络反而学习了图像旋转变形等失真情形，无法产生逼真的合成图像。而现在Nvidia所提出的ADA方法，可以适应性地应用资料增强方法，避免过适现象，而使得StyleGAN2等模型，可以使用更少的训练图像，并获得良好的结果。

研究人员将这项结果应用在过去因为训练资料太少，而难以实现的使用案例上，像是艺术家便使用StyleGAN进行创作，产生出各种精美绘画，或是以传奇插画家Osamu Tezuka的风格，搭建新的漫画，Adobe也应用该项技术，提供新的人工智能工具Neural Filters。

研究人员也提到，该项技术还有望应用在医疗保健领域，因为罕见疾病的医学图像很少，而且每个案例差异度很大，要大量收集有用的病理切片资料集很困难，而使用ADA技术的生成对抗网络，则可改善这样的问题。

# AI