首页 > 科技快讯 > 除了制造“逼真假脸”，GANs还在看不见的角落里搞事情

除了制造“逼真假脸”，GANs还在看不见的角落里搞事情

晰数塔互联网快讯
2019-02-19 08:10

自2014年诞生之日起，GANs（Generative Adversarial Nets，生成对抗网络）就一直是机器学习领域的“流量担当”，过去的两年间更是迎来了成果井喷。

有人还专门为它建立了一个GAN Zoo，用来收集所有已被命名的GAN，目前已经有500多个了。欣赏一下这令人咋舌的增长曲线：

尽管GANs的进步是日新月异，但仔细观察一下就会发现，最广为人知的吸睛案例，大都集中在娱乐领域，而且不乏吐槽之声。

比如从去年年底英伟达推出的GAN，合成的人脸几乎能够以假乱真，一众媒体直呼“可怕”。前不久它终于有了自己的名字“StyleGAN”，源代码也免费公布，立马又被爱搞事情的网友送到了风口浪尖上。

来自Uber的软件工程师Philip Wang利用styleGAN做了一个网站，每次刷新都会生成一个“现实中不存在”的人脸，逼真得令人毛骨悚然。很快就有网友表示，看到了一张跟自己一样的脸，然后她就真的不存在了……这个赛博朋克式的神展开，立马让大家带入了被“假脸”支配的恐惧。

当然，除了探讨照片是否可信、带来识别安全问题怎么办这些问题之外，或许我们也应该关注一下，为什么GANs一路进化，大多数研究却总是聚焦在换脸技术上呢？

这场热闹非凡的换脸游戏背后，恐怕隐藏着一个GANs从算法走向产业道路上最难突破的瓶颈。

GANs新成员：换脸技术哪家强？

GANs从出道那天开始，“图像生成”就是最能打的一块招牌。而在各种各样GANs中，“新晋网红”styleGAN，绝对是面部生成的技术担当。

关于英伟达这个新模型，我们去年就第一时间解读过，在此不再赘述。简单来说，就是让生成器模仿风格迁移算法的方法，学会识别出更高级、也更有意义的特征变化（比如年龄、脸部细节等等），从而让图像生成效果更加逼真。

同时，styleGAN的识别效率也大幅度提升，能够自动分离图像中的变化，开发者能够以直观的方式控制合成结果。加上前不久英伟达开放了图像数据集和styleGAN的源代码，自然吸引了不少技术大佬们跃跃欲试。

有用它“造老婆”的，一位名叫roadrunner01的程序猿，用大量二次元少女的图片训练StyleGAN，各种风格的纸片人妹子任由选择。

当然还有装逼失败的。由于准备不充分，靠StyleGAN生成假脸的网站“thispersondoesnotexist”就被群嘲了，因为网友在上面找到了几乎和自己一样的脸，就此掀起了一阵“刷新一次消失一个人类”的都市灵异文学创作热情。真的是，没有全球70亿人的人脸数据集，就不要揽瓷器活儿啊。

不仅图像能造假，视频也没逃过此劫。去年年初，基于GAN的视频换脸术Deepfakes，就被用来制造了一大堆足以乱真的假视频，奥巴马、斯嘉丽·约翰逊、神奇女侠盖尔加朵、杨幂、刘亦菲等中外名人纷纷成了假视频的主角。

尽管GANs的进展很令人欣喜，但一个尴尬而无奈的现实也就此清晰地呈现在了它的进化之路上——绝大多数成果都聚焦在图像生成上，并且常常以娱乐、夸张的形式出现，“逆天”“以假乱真”“被色情”等新闻不绝于耳。

人脸生成的效果太好、门槛太低，正在挑战着公众的辨别能力，让大众对网络内容和图像证据的信任进一步坍塌，而那些大众期待的、GANs真正改变产业和生活的效用，却仿佛集体失声了。怎么回事？

除了“逼真假脸”，GANs还有哪些打开方式？

首先要替GANs澄清一下，作为一个能自我判别和推倒出新样本的生成算法，它能应用的训练场景和商业前景是非常大的。而且，正在勤勤恳恳地“为人民服务”，为不少产业的进化添砖加瓦。比如：

1. 影视创作

创作是最考验想象力和艺术张力的地方，也是越来越劳动密集型的产业之一。在工业制作体系成熟的好莱坞，一部电影从编剧到营销团队往往多大数千人。而GAN恰恰可以改变这样昂贵而高风险的生产过程。

项目前期，GAN可以利用文字描述生成相匹配的逼真图像，快速打破次元壁，高效而还原地生成电影脚本，避免因为画风跑偏而收获原著粉赠送的“人参万两”；

在后期剪辑上，IBM正在利用以GAN为基础的AI算法，去识别视频中的台词和场景的意义，根据角色的心情、剧情的复杂程度以及前后片段的关联程度，快速生成电影宣传片，大幅压缩了制作成本和时间周期。

2. 图像修复

现实中，我们常常会面对一些历史原因而辨识体验较差的图像，比如被损毁的文物残片、消失了一半的古建筑、上个世纪创作的游戏或电影，对它们进行修复或复刻，往往只能依靠某些专精技术人员日以继夜的努力。现在在GAN的帮助下，可以更高效地还原和处理这些瑕疵部分。

比如在英伟达的一篇论文中，就阐述了它是如何用GAN训练出的“图像翻译网络”（Partial Convolutions）为图像上的建筑和场景补上缺失部分的。

一些超经典的游戏，比如《重返德军总部》《上古卷轴 III》《马克思·佩恩》等，都陆续被 ESRGAN（增强型超分辨率生成对抗网络）进行了重制。画面变得更加精美的同时，还忠实地保留了原来的艺术风格，以后玩家和剧迷们再也不用担心心爱的作品被人工改得面目全非了。

《马克思·佩恩》原版截图和ESRGAN重制后的截图

3.个性时尚导师

除了还原，GANs还具备超强的想象力，可以通过多元样本进行判断与生成，从而输出个性化又风格统一的方案。比如亚马逊和阿里巴巴都在打造的“时尚人工智能”（FashionAI），就是利用GANs实现的。加载了GANs的电商推荐系统不仅能够向用户提供个性化的时尚搭配建议，而且还能够将二维商品图转化成3D试穿效果图，从而帮助商家进行服装销售。

研究人员利用亚马逊商城用户在六种商品（男女款式的鞋类，上装，下装）的购买数据来分析其商品偏好，然后训练出相应的GAN模型。阿里巴巴的新零售线下店，也是采用了该技术来向店内顾客展示和推荐商品。