经典的画作展现了艺术家眼里的世界,普通人经常会好奇画作背后现实的景象,希望借此直观地感受艺术家所做的处理。现在,你不需要去往诺曼底,也不需要等待完美的季节与光线,就能一窥莫奈笔下圣达特勒斯海滩的原始景象。
加州伯克利分校人工智能研究实验室(BAIR)最近开发了一项开源的风格转移技术 CycleGAN,可以利用画作重建照片,就像是 Prisma 的逆过程一样。相同的 AI 也可以将绘画转换成不同的画家风格、替换图中对信息的纹理等等。
莫奈画作现实世界的重现,现实世界的图像大多来自 Flickr。
在题为《基于循环一致对抗网络的非配对图到图翻译》的论文中,研究者列举了一系列示例。除了将照片转换为莫奈、梵高、塞尚或浮世绘的风格之外,研究团队还将优胜美地的冬日变成了夏天、把苹果变成橙子、给马加上斑马的条纹。此外,这种技术还可以给照片增加景深。
这项研究的有趣之处,在于研究团队使用的是“非配对的数据”。以往的风格转移技术,往往会有一张待处理的图像和一张参考图像,人工智能学习两张图像的风格差别,并把参考图像的风格注入待处理的图像之中。而在这项技术当中,对于要转换的莫奈画作,并没有与之配对的示例图像来指导,而是由算法随机生成图片。但没有风格的指导,人工智能要怎么画出梵高的笔触呢?
这就要靠技术名字当中“GAN”,意思是“生成对抗式网络”,指的是让两个神经网络相互竞争,生成器(Generator)随机生成,鉴别器(Discriminator)判断生成的样本和真实的样本孰真孰假。二者相互博弈,砥砺相长,最终生成仿真照片,甚至能用照片合成视频。
这项应用当中,研究者使用了大量来自 Flickr 的图片,以训练鉴别用的神经网络,经过人和机器的两道检查得出结果。
而准确度的增加则是靠“循环一致”,也就是技术名字中的“Cycle”。研究人员通过将重建的图像与原始图像耦合,就好像把翻译得到的英文重新翻译回中文一样,比较二者的差异,来减少令人困惑的部分。
在变化颜色和纹理的任务当中,比如给苹果裹上橙子皮、马加上条纹,这项技术经常获得成功。但在几何变化的任务当中,比如猫变狗,目前仍是困难重重。
更多成果可以在研究团队的 GitHub 页面上看到。如果你使用 Linux 系统,并想亲自试一试的话,上面也提供了代码。
尽管目前,使用参考图像的风格转移技术的效果更好,但这项技术的发展仍意义重大。因为在许多情况下,参考数据的获取成本昂贵或是十分困难。
题图 CycleGAN 技术重现莫奈作品《圣达特勒斯的海滩》的原始景象,同文中其它图片均来自来自 研究团队 GitHub
喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。