查看原文
其他

专访AI创作者蒙胜宇:不在AIGC浪潮中迷失

张子瑞 赵雅惠 中国科普作家协会 2023-06-30

AIGC(人工智能生成内容)的创作风潮正在全球范围内蔓延,为广大创作者实现科幻想象提供了新的动力。为了深入探讨AIGC在科幻创作领域的影响,中国科幻研究中心AIGC赋能科幻影视产业研究课题组进行了一系列精彩的访谈。本期特邀AI跨领域研究和艺术创作者蒙胜宇(Simon Meng)作为嘉宾。

在“AIGC元年”之前,蒙胜宇已经在AI领域从事研究和创作多年。作为艺术创作者,他早在2017年就开始进行AI艺术创作,并用AIGC与小米、雪佛兰等品牌进行了商业合作。同时,作为研究者,他深入研究了AIGC的底层逻辑,并在媒体和论坛上做过大量AI科普工作。此外,作为懂代码的跨界者,他基于Dream fields(AI文本生成3D模型)开发了开源文生3D模型Dreamfields-3D,引起了包括Dream fields论文原作者在内的业内人士的广泛关注。在本次访谈中,我们通过他独特的视角和丰富的经验,得以深入了解AIGC与艺术交汇的未来可能性,探寻创意和科技的交融之道。








AIGC创作历程

Q是从什么时候开始使用AI进行创作的?对AI的使用方式和使用体验发生了什么样的变化?您最常用的技术工具有哪些?

蒙胜宇:我个人是从2016年末到2017年初开始应用AI进行创作的,当时生成对抗网络刚开始引起轰动,具体是指Cycle-GAN(循环生成对抗网络)和pix2pix(条件对抗生成网络,能够实现从图像到图像的映射)。之前的AI模型虽然能够生成一些内容,但在图像方面,设计师更关注的是文字生成图像,而之前的模型并不能生成清晰、可解读的图像。然而,从生成对抗网络发展到Cycle-GAN和pix2pix之后,在某些条件下,它开始能够生成可被阅读的图像。

现在的发展趋势是AI生成图像的限制越来越小。以前,要获得清晰的图像可能会面临很多制约。例如,在计算时间上可能存在限制,或者必须将生成的类别限制在一个很小的分类中;例如之前很火的StyleGAN(基于样式的生成对抗网络)只能生成人脸,或者每个模型只能生成一种类别的东西,无法生成多种类别的东西。另外,如果想要利用原始图像进行风格转换,也受很多条件所限,使用起来也很麻烦。AI图形软件在通常情况下,没有人去开发图形操作界面,反而对编程能力的需求更大一些,但即使添加了很多约束,最终生成的结果与人类创作的还是有很大的不同。所以大家有时就会选择暂时忽略与人类创作风格的差异性问题,先审查图像是否清晰或画面是否丰富等。在当时,AIGC与人类创作仍存在很大差距。

而现在,这三个劣势被快速修补,使用门槛极低,生成速度超快,限制非常少,基本上可以做到以假乱真,如果不仔细观察,有时很难区分是人类还是AI创建的东西。甚至现在有一种趋势,即人们经常用于判断一幅图是不是由AI生成的标准是这张图是否有足够多的瑕疵,因为很多人认为AI生成的结果可能比一般人创作的真实结果更好。因此,人与AI之间的界限已经变得模糊。这三个趋势的发展是显而易见的。

在我个人使用的技术工具中,最常用的是Stable Diffusion(一种基于潜在扩散模型的文本到图像生成模型)中的ControlNet(一种神经网络架构,可通过添加额外的条件来控制扩散模型,让AI出图更可控)。由于设计师需要生成很多图像,在之前的生成过程中,开始时生成的结果可能并不是我们需要的,而当后续趋近于目标时,则很难精确地控制,我们无法将其与工业标准对齐。然而,ControlNet的出现解决了这些问题。现在可以精确控制图像是否清晰、是否出现特定的元素,以及达到何种构图要求。

Q:去年11月,您使用AI为小米手机做了宣传片,也在您的公众号中分享过创作流程,除了文中所写,创作过程中遇到了哪些困难呢?如果放到现在的技术环境,如何更好地优化呢?

蒙胜宇:困难还在于可控性。当时我认为最有趣的一点是,我想为这个作品赋予叙事性,涉及到时间的概念,从过去、现在和未来三个角度进行切入。小米方面也非常支持这个想法,他们也很喜欢这些概念。但问题是,由于作品中的变化并不完全可控,比如最后一帧变成了陨石,接着慢慢过渡到一个手机,整个过程中有些变化是令人满意的,但在中间也有可能会突然出现一些不相关的元素,或者一帧突然变成了其他内容,这时你就需要手动修复这些中间的帧。虽然它可以在整体上接近我想要的效果,但细节方面仍然无法达到。所以那时我认为这是比较困难的一点。

小米手机宣传片关键帧截图

我认为如果现在做的话,可能会改变方法,选择彻底改变整个工作流程,不再使用这个方案(即使用Stable Diffusion生成意向图,用dreambooth对手机模型进行Finetune,使用训练好的模型生成关键帧,补帧连接动画,手工修帧平滑动画)。例如,现在Runway gen2(AI文本生成视频技术)效果非常好,我可能会拍摄一段真实视频,然后进行转换。因为那个作品是去年十一月完成的,现在可谓是“AI一天,人间一年”,已经完全不一样了。我可能会尝试一些多模态1的方法来完成这个项目。

Q:您的AI共创画作《彩砂重构巴塞罗那》绘制了巴塞罗那的砂石照片,具体是如何进行AI协同创作的?其中多模态模型的应用情况如何?

蒙胜宇:这实际上与我个人的探索有关。就拿我最后那个作品来说,从点赞量来看,并没有什么特别之处,那为什么我要做这个作品呢?在Stable Diffusion(AI绘画工具)和Midjourney(AI绘画工具)这样强大的图像生成模型问世后,我停止了很长一段时间的创作,因为我找不到创作的理由,或者说找不到使用这个工具的理由。以前使用 VQ-GAN(基于 GAN 的生成模型,可以将图像或文本转换为高质量的图像)或Disco-Diffusion(AI绘画工具)的时候,如果不注意方法,生成的东西是很不美观、很丑陋的。后来发现,通过人为操作,基于了解某个模型的特性的基础上为生成的过程施加一些限制,例如选取一些特定主题,使用特定的参数组合,可以将本身过度模糊的AI图像拉扯到可阅读和不可阅读的边缘,形成一种介于抽象和具象之间,人工控制和机器随机之间的作品。这件事情很有趣,我当时就很愿意将这些作品发布出来。

当Stable Diffusion和 Midjourney出现后,这些模型显示出强大的生成能力,生成的图片非常清晰,从表层的美学上来讲可能非常好看,这时候如果再发布用之前的工具所创作的那些作品,就很难引起外界的兴趣。但是如果我直接使用Midjourney或Stable Diffusion 进行创作,我又会感觉缺乏创作的理由。它们虽是工具,但已经强大到可以通过简易操作就能生成类似于我们在真实世界中需要倾注很多精力才能完成的作品。如果我要将其称为艺术品,可能需要像创作真正的艺术品一样,具备一种严肃的或独特的对世界的理解以及自我表达的角度,才会去做这个东西,但我一直没有找到那样的角度与理由。

后来我又换了一个角度,转而去思考哪些事项是只有AI出现后才能做,在AI出现之前是无法实现的?我觉得这个问题很有趣,虽然大家都在使用Midjourney、Stable Diffusion等工具生成图像,但其实我用照相机拍摄并通过Photoshop软件也可以做出类似效果,或者通过建模也可以实现,只是需要更多时间。

那是否真的有一些东西是只有AI出现后才能实现的呢?当我去巴塞罗那时,我觉得那里的沙子很美,我就在想如果将其与图像混合会是怎样的效果?或者与城市混合会是怎样的效果?因为沙子本身也是建造城市的一种材料,而且我对微观和宏观之间的关联非常关注。传统的图像混合方法通常有两种,一种是在Photoshop中进行简单的拼接,另一种是通过主观意识,通过抽取沙粒中的某些特征来创作一幅画作。但现在有了多模态模型,它可以将一张巴塞罗那城市的图像与一张沙子的微观图片投射到“隐空间”中。

“隐空间”对应的是数学中的高维函数空间,可以理解为神经网络可以将每张图的语义编码为一个坐标,即特征向量。我可以在不同的比例上混合这两张图像背后的特征向量,再生成出来,相当于我利用计算机对这张图像的理解来混合这两张图像并再次生成。运用AI工具与我使用其他工具混合出来的图像效果肯定不同,让我觉得这件事情很有意思。


人机协同创作作品《彩砂重构巴塞罗那》

Q:我们了解到您不少创作都具有科幻色彩,比如关于平行宇宙中人类不同的末日景象等十分科幻的一些主题。请问您的创作有受到哪些科幻作家或者艺术流派的影响吗?

蒙胜宇:其实我蛮喜欢看科幻的,但我看的其实没有很多。之前我把刘慈欣所有的科幻小说都看了一遍,从长篇到短篇。刘慈欣被民间调侃为“毁灭宇宙的惯犯”,他的小说结尾经常都是世界走向毁灭。看了“末日三部曲”之后,我第一次意识到AI能够用文字生成我所想象的内容,于是我就尝试着“让地球毁灭”,看看会变成什么样。最近我也在阅读阿瑟·克拉克的小说,他的《童年的终结》给了我很大的震撼。

我喜欢看科幻的另一个原因是,我个人比较敏感,生活中的许多事情会让我感到焦虑和担忧。但是当我看科幻作品时,就好像跳出了一些琐事纷扰的现实。所以我觉得既然AI如此强大,能够放飞我的能力,那我就不要再去创作一些日常题材。

随着AI工具的改变,我的创作倾向也会发生改变。刚开始的时候,让AIGC工具去写实是比较困难的。就像我前面所说的,当时它更适合创造介于真实与虚幻之间的东西。现在随着工具的变化,我的创作倾向也会有一些改变,就像《彩砂重构巴塞罗那》,它并不那么科幻,更像是童话或艺术的一种呈现方式。








AIGC的边界与破局

 Q认为AI技术可能会如何影响科幻创作?

蒙胜宇:从微观层面来看,科幻作品可以以文字、图像、视频等形式呈现。当我们拥有这些工具之后,必然会提高效率,或者说增加我们在单位时间内的可选择性。因此,对于同样具备天赋的人来说,在工具的帮助下,他们的作品可能在质量上也会有所提升。

从宏观层面来看,我觉得科幻有意思的点在于,科幻是人类有约束的理性想象力的一种边界。当然,在科幻以外,例如创作修仙玄幻等题材的作品,我可以天马行空想象,但可能在人文上,或者说在可理解这件事情上,有一些约束。但是在物理准则,在科学上是没有什么约束的。科幻或许就是这些客观规则约束下想象力的一种边界。

AI出现后,我们之前所理解的客观规则发生了一些变化,比如“眼见为实”的观念。最近出现了一种AI,它可以根据现象直接推导出新的物理公式,而传统的物理公式可能需要依靠低阶物理公式的构建或其他数学方法来推导。这种AI反而能够直接基于概率进行推导。这可能对我们认识世界的方式将产生新的影响。

在伦理方面更是如此,AI为科幻提供了许多新的题材。以前某些领域可能被限制住,不知道如何去书写,而现在突然觉得那些领域可以被探索了。因此,在宏观层面上,AI扩展了科幻写作的边界,改变了以往作品的某些背景设定。

Q您认为目前技术的自动化决策和创意是否可靠?

蒙胜宇:这取决于你对可靠性的定义,但整体而言,它并不是那么可靠,人还是得做好把关。客观来看,它经常会出现幻觉的问题。例如,有时候我在撰写论文时,会遇到这样一种情况:我有一个观点,我需要找到相关的参考文献,但我懒得去查找。我知道肯定有人已经写过这个东西,并经过验证,所以我让ChatGPT去找,接着它会给出一堆看起来似是而非,但又看起来像是相关的内容。但是,当我查找这些论文时,实际上有50%是不存在的。

目前来说,从客观上来看,技术的自动化决策和创意肯定是不可靠的。从主观上来说,例如,我希望AI按照我的意图创造一些东西,但由于它的训练数据集存在问题,它仍然会受到其中许多偏见的影响。以前有人使用AI来筛选简历,但在两三年前,选简历时还包括候选人的照片,有人发现,如果你的简历照片是戴眼镜的形象,被通过的概率会提高。如果你的背景是书架或者一个高档房间,简历被通过的概率也会再次提高。实际上,眼镜与一个人简历的竞争力之间并没有必然关联,只是在概率上存在一些关联,但它却将这种偏见带入了模型中。因此,具体来说,它仍然不太可靠。

Q:除了原始数据偏见的问题,目前人工创作内容的减少,但AI生成内容在井喷,有没有一种可能,AI或算法生成到一定程度后就不再能生成新的作品,您认为这一问题可以如何克服?

蒙胜宇:之前有人问过我,如果用AI生成的图片再用AI进行训练,会怎么样?我当时回答肯定不行,肯定会过拟合,会越来越拟合到自己的那个区间内。但我现在觉得之前的说法肯定要改掉了,在现在在实践中,我发现了几件有趣的事情:

首先,GPT-4现在是质量最好的模型,那么GPT模型相较于以前的语言模型有何优势呢?优势在于它采用了问答的形式,利用了一些高质量的问答数据集来对齐其原有的知识。但它没有开源预训练代码,也没有预训练数据集。

但是高质量的问答数据集不容易寻找,所以现在很多新的开源语言模型采用了一种有趣的设计。它们首先随意构建或收集一系列问题,向GPT-4提问并将其回答记录下来,然后将这些问答制作成数据集,再用该数据集来训练开源模型,这样训练出的模型在参数量较小的情况下也能达到GPT-4百分之八九十的质量。

比如,很多人认为Midjourney的质量好,因为它使用了许多高质量的商业图片进行训练,所以质量较高,但Midjourney是收费的,而且插件较少,可控性较差。相比之下,Stable Diffusion是开源的,插件多更可控。所以许多人将Midjourney生成的图像提取出来,再用Stable Diffusion进行训练,通过Midjourney的输出来提高stable diffusion生成图像的质量,或者说跳过了收集真实高质量图片数据集进行训练,而是直接用midjourney的输出结果去调教stable diffuison模型的美学倾向。

现在的情况是,有许多不同的模型,每个模型都有不同的数据源,并且数据源非常丰富,生成的图片和文字质量也很高。所以未来可能真的会用AI生成的内容再去训练另一个AI,再加入一些人工的元素并进行调整。我觉得这种范式能够创造出无穷无尽的新东西,我感觉现在的限制在某种程度上已经被打破了,与过去已经完全不同了。

现在还有一些很有趣的现象,在前年年末到去年6月之前,Disco-Diffusion是最好的生成模型,它生成的内容可能比较模糊、抽象,但经常能给人带来惊喜,有一种跳跃感。前两周我在逛Reddit论坛的的时候,就看到有个人说“你们有没有人在stable diffusion上生成Disco-Diffusion风格的复古模型?我很怀念那种风格”。这个时代变化得太快了,一年前还是SOTA模型(state-of-the-art model,指目前最好、最先进的模型),而一年后它已经变成了一种让人怀旧的复古风格。这件事真的让我深感震撼。

使用AI创作的硅基生物








AIGC时代生存之道

Q:当艺术创作逐步自动化后,您认为人类创作的优势在哪里?

蒙胜宇:我觉得艺术没有办法完全被自动化,只能说是创作流程中的一部分过程自动化。我认为艺术最重要的两点,一个是创作者的主体性,第二个是阅读者的主体性。这两个主体性,除非说AI已经拥有完全独立的人格,否则的话它没有办法替代创作者。即使我们可以用AI生成大量的图像,在挑选图像的时候还是需要由人来完成,这个挑选的过程也非常重要。例如我们在地上捡石头,最后找到一块石头,那块石头并不是我们制造的,但经过清洗后,放置在适当位置,它就成为了艺术品。因此,我认为,应该说人类本身是无法被替代的,被替代的只是艺术创作过程中的一些工作。人类的优势将一直存在,直到出现真正的硅基文明之前。

Q:作为AIGC后来者,如何能像您这样,对AIGC技术发展脉络有全面了解?

蒙胜宇:我建议学习斯坦福大学计算机科学系和电子工程系副教授吴恩达的深度学习课程,这是我最早学习的一门课程。我自己花了一年多的时间,最初学了一半就觉得非常难。此前我只学过微积分,没有学过高等数学、线性代数和概率论等。最近B站的总裁说B站上播放时间最长的视频是高等数学,我可以作为过来人告诉你,确实是这样的。我自己先重新学习了四本高数教材,大约有200节课,然后再回来学习深度学习。但是我又发现自己对Python不太熟悉,于是去学习了一门Python课程。你问现在有没有一本书介于初级和高级之间,讲解一些原理但不涉及具体运算,通过这些原理将技术串起来的书籍,我确实没有找到。我也在考虑是否要写这样一本书,但感觉工作量很大。

也可以先找到每个领域的代表模型,比如Stable Diffusion和GPT-4,直接去看他们的相关论文,就能理解这些模型的核心框架是什么,并再往回溯源相关技术。以Stable Diffusion为例,它的上一层是Latent Diffusion(潜在扩散模型),是在Diffusion的基础上加入了潜在变量。我们可以先弄清楚Latent和Diffusion是什么,然后再回溯到Diffusion之前,Diffusion是从DDPM(Denoising Diffusion Probabilistic Models,去噪扩散概率模型)发展而来的。接着再回溯到DDPM是什么,再往前推。但是需要看很多论文,所以这个过程并不容易。如果涉及到GPT,可能往回追溯就是Transformer(一种利用自注意力机制来提高模型训练速度的深度学习模型),再往回可能是Attention机制(注意力机制,一种能让模型对重要信息重点关注并充分学习吸收的技术),再往回可能是RNN(Recurrent Neural Network,循环神经网络),至于RNN之前的内容,我就不清楚了。大致就是这样逆向追溯,但需要根据追溯的程度,查阅相关的知识,不一定要完全理解每一个细节,可以先从查阅相关论文开始。

 

蒙胜宇自主开发的Dreamfields-3D模型的生成作品

Q:作为技术小白,现在AI技术层出不穷,每天都给我带来特别新鲜的体验。一个很关键的问题,怎么不在AI的技术体验当中迷失?面对两个新技术,如何取舍?

蒙胜宇:我认为不要迷失,这涉及到两个方面。首先是不要迷失在各种工具的选择中,其次是不要迷失了使用这些工具的初衷。

因为我很早就开始关注这些工具,并且系统地学习了神经网络和深度学习的知识。没有任何技术是凭空出现的,它们都是在技术的基础上逐步发展起来的。所以每当我看到一个新的工具,我大致知道它所使用的技术,它相对于之前的工具有哪些改进,存在哪些缺点,能够做到什么新的事情,以及它的局限性在哪里。这样一来,我就可以将它纳入自己的知识体系中,从而进行比较,判断这个工具是全新且有用的,还是只是在重复之前的一些工作,没有太大意义。

由于现在工具的数量很多,我们无法学习所有的工具,学习2-3个就差不多。我觉得需要把握的原则是“学可以致用”,我们需要从自己现在面临的任务出发,根据主要任务与目标,去选择性学习。每当看到这些相关工具的时候,可以提高关注度,聚焦在某几个工具上,并深入学习。


嘉宾介绍

蒙胜宇(Simon Meng),建筑设计、艺术、人工智能及生态学跨领域研究者,奥地利因斯布鲁克大学(UIBK)建筑学在读博士,伦敦大学学院(UCL)建筑学硕士,奥地利因斯布鲁克大学及伦敦大学学院城市设计硕士课程兼职教师。多平台自媒体“Simon的白日梦”作者。作品曾在伦敦、爱丁堡、威尼斯等多地展出。曾与小米、雪佛兰、国家地理中文网、周大福合作创作AIGC作品。

注释

1.“模态(Modality)”是德国理学家赫尔姆霍茨提出的一种生物学概念,即生物凭借感知器官与经验来接收信息的通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态人工智能是一种新的人工智能范式,将各种数据类型(图像、文本、语音、数值数据)与多种智能处理算法相结合,以实现更高的性能。


供稿:中国科幻研究中心起航学者张子瑞

青年储备人才赵雅惠


本文为中国科幻研究中心“AIGC赋能科幻影视产业‘智造’研究”项目成果,旨在深入研究AIGC对于科幻影视创制方面的作用,欢迎持续关注后续内容!

:排版:沈 丹

编辑:闫进芳

审定:姚利芬


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存