生成式AI在育碧3A游戏图像生成的实践应用

2024-02-24 11:58:02 来源：游戏主播网

生成式AI在育碧3A游戏图像生成的实践应用

导读我非常荣幸能在此次分享会上跟大家介绍育碧（Ubisoft）是如何拥抱生成式人工智能以及如何在 3A 游戏开发中运用 2D 图像生成技术的。

育碧（Ubisoft）是全球领先的游戏开发商，创造了《刺客信条》、《孤岛惊魂》、《舞力全开》等世界闻名的游戏品牌。最近，我们还与多家娱乐行业佼佼者合作，围绕知名 IP 如《阿凡达》、《星球大战》和任天堂《马里奥》开发游戏。我们的中国工作室参与了以上游戏作品联合开发。事实上，1996 年，育碧作为最早进入中国的海外游戏开发商，在上海开设了我们在中国的第一家工作室。随后，在 2008 年，我们在成都开设了第二家工作室。如今，我们拥有千人规模的人才团队，育碧中国团队成为育碧集团第三大创意力量。

今天的介绍会主要由以下五点组成：

1. ALEXIS ROLLAND 个人简介

2. 生成式人工智能革命

3. 生成式人工智能对 2D 美术创作的影响

4. 育碧（Ubisoft）的战略举措

5. Q&A

分享嘉宾｜Alexis Rolland Ubsoft China Development Director

编辑整理｜徐亚楠

内容校对｜李瑶

出品社区｜DataFun

ALEXIS ROLLAND 个人简介

Alexis 在育碧（Ubisoft）工作 11 年，8 年前加入上海工作室。Alexis 的专业背景是数据分析，他曾领导育碧大数据平台的开发。在过去的两年中，他领导 Ubisoft La Forge 的中国团队。La Forge 是育碧的全球科研部门，其使命是根据最新的学术进展促进技术原型的开发，研究团队分布在加拿大、法国和中国。

生成式人工智能革命

1. 发展历程

图像生成在学术界并不是新话题。自 2015 年以来，研究人员一直在开发不同的技术，自 Text-guided Diffusion 发布之后，技术革新速度呈指数级增长。尤其在 2021 年底，一款名为 Disco Diffusion 的工具被开源后。该工具是由一位设计师兼自学开发者创建的，后来他加入了 Midjourney。然后，OpenAI 于 2022 年 4 月宣布推出 DALL-E2，但并未向广大用户公开提供访问权限。与此同时，Midjourney 开始通过聊天平台 Discord 提供对其 AI 机器人的访问权限。

然而，真正的爆发出现在2022 年 8 月，由 Stability AI 发布的预训练模型 Stable Diffusion，开源并提供给所有人使用。

在这一发布之后，图像质量和计算效率得到了快速发展。特别是在 3 月 Stable Diffusion XL 和 8 月 DALL-E 3 相继发布之后。

这里的关键点在于，尽管研究主题并不新颖，但技术的成熟度结合技术开源以及其能够在消费者硬件上运行的可访问性，是触发我们今天所见革命的原因。

2. 生态体系

作为证明，我们可以看到这些基础模型的发布引发了大量关于提供更多图像生成控制的技术的新论文，例如 DreamBooth、Low Rank Adaptation、表现优异的 ControlNets 以及来自腾讯的 Text-to-Image Adapters。

开源社区迅速采纳了这些突破，创建了软件和工具，促进了人工智能模型的共享和分发，以及人工智能解决方案的开发和产品化。

这相应地促使了一批初创公司蓬勃发展，力图闯出一片天地。而在这个市场上的历史性参与者，如 Adobe、Nvidia、Unity 等，也功不可没。

生态系统蓬勃发展，形成了一个尚未完全结构化和成熟的新市场，但我们可以感受到的是，借助人工智能进行图像生成正变得越来越容易，并且在某种程度上正在成为一种商品。

生成式人工智能对 2D 美术创作的影响

当你想到游戏制作中的 2D 美术时，可能会浮现出一些精美的概念美术，比如我们最新的刺客信条系列作品《Mirage》中美不胜收的环境和场景图。该游戏背景设定在 9 世纪的巴格达黄金时代。

或者你可能会想到像《刺客信条：瓦拉哈拉》中的角色概念美术和多角度视图类似的东西，它们为 3D 艺术家提供了许多带有丰富细节的变体参考，以便创建相应的 3D 模型。

或者你甚至可能会想到各种道具、武器、建筑以及游戏世界中的其他元素的视觉效果。

虽然这些图像非常精美且需要耗费大量精力来创作，但实际上概念美术并不是创作精美的图像，而是为团队构建一个共同愿景，定义游戏的视觉特征，传达创意的过程。

为此，我们不一定需要耗费大量人力来制作非常精美的高品质图像，通过各种视觉材料，如参考图片、草图、绘画等也能完成。

让我们看看如何将它融入游戏开发流程。

在游戏开发中，概念设计发生在内容创建管线中的开始阶段，可以分为两个主要阶段：

构思阶段（Ideation Phase）：该阶段采纳游戏总监（如创意总监、世界观总监等）的意见和想法。创作阶段（Production Phase）：在这个阶段，美术师们开始创作美术资产和视觉材料，以具体呈现游戏的愿景。

在此之后，其他团队可以开始制作不同的资产。这个过程确保了游戏的创意在实际开发中可以实现。

在构思阶段，美术总监和首席艺术家会先大量收集高品质的参考图像，以阐明他们的创意想法。

接着，概念美术师创作出初步概念设计，他们往往采用草图的方式创建大量变体，以帮助完善他们正在阐释的具体概念。

在这个阶段，变体尤为重要。

接下来是和总监们进行多轮讨论验证，理想情况下，如果在这个阶段需要来回修改设计，迭代速度越快越好。

随后，初步设计一经确认，美术师们会按照美术指导方向制作更高品质的美术作品。

因此，这些阶段出现的关键词包含：

数量变体迭代速度

这些都是生成式人工智能的优势所在，因此通过 AI 的协助，我们可以加速这一工作流程。

在这里，关键词是“协助”。

在育碧，人工智能只是一种工具，人工智能是为了赋能美术师更好地进行创作，保证美术师才是创作工作的核心，而不是使用人工智能实现自动创作。

有些人认为 AI 将有助于降低成本，而我们相信，它将主要在加快团队的推进速度和提升游戏的整体品质方面表现非凡。

首先，我们先谈谈“速度提升”。

理想中的内容创作管线从概念设计开始，然后创作美术作品，审核和迭代修改，最后进行品质打磨，并在截止日期前交付。

实际上，如果一切顺利。美术师可能会经历几轮审核修改的过程，最后可能会超过截止日期交付，这还是在很幸运的情况下，也就是在制作过程中没有游戏重启或游戏方向没有改变……

现在，通过 AI 的协助，我们预计可能会加速迭代速度，缩短迭代循环，最终提高品质并尽可能优化时间线，但在节约成本这一方面目前难以预测和衡量。

生成式人工智能最大受益者可能是那些小型的独立工作室，他们将能够创造出更多的内容。

据贝恩公司在游戏行业高管中进行的一项研究预测，多达 50% 的游戏内容将在人工智能的协助下被创作出来。

考虑到内容创作变得如此容易，我们可以期待大型公司过去拥有优势的“创造”将转变为“差异化”……

换句话说，如果每个人都能轻松地创作内容，那么游戏工作室就必须让自己实现差异化才能脱颖而出。

如何实现这一点呢？

首先，保证美术师处于创作过程的核心。拥有相应的控制权至关重要，以此来确保人类创造力的独特触感，以及在人工智能协助下创作内容的一致性。

其次，在竞争激烈的市场上，独特的品牌和知识产权也是关键的差异化因素。

最后，专有数据可以帮助创建符合公司品牌和价值观的定制人工智能。

此外，开源 AI 模型非常适用于通用用例，但在美术师需要创建符合特定游戏中特定要求的内容时，比如特定的美术方向、视觉语言元素或特定品牌概念时，它们也存在一些限制……

育碧的战略举措

我们的团队决定尝试使用《刺客信条》进行图像生成模型的微调实验。这是个非容易的选择，因为《刺客信条》大概是育碧最大的 IP。该品牌已经有 15 年多的历史。至少已发布 13 款大型游戏以及大量小型项目。这意味着我们拥有数千件美术作品可供使用。

话虽如此，我们希望这个模型，能成为我们美术师的百宝箱中一款可靠的工具，用来替代开源模型已经实现的功能。

因此，我们决定专注于概念美术。

启动这一倡议的其他动机包括：

发展我们的内部能力。学习如何精通生成式人工智能技术，尤其是如何在整个公司规模上训练和提供生成式人工智能模型。制定方法、最佳实践和工具，以帮助创建高质量的数据集，采用严格的方法，以保障所用数据的透明度和模型的可解释性，这在不同国家，尤其是在欧洲，正在被写入法律。最后，考虑到人工智能的潜在偏见，创建我们自己的模型也是我们公司遵守道德准则和价值观的一种方式，以符合员工和玩家的期望。

我们遵循的宏观工作流相当简单，从数据收集开始，经过数据准备，然后进行许多微调实验，最终人工评估出表现最佳的模型。

对于数据收集，我们很幸运地拥有一个跨媒体团队，负责在每次发布新游戏时制作《刺客信条》画册，因此他们随着时间的推移拥有一个庞大的 2D 资源库，几乎包含了每个游戏的所有概念美术。

我们已经收集到约 3.6 万张美术作品，但并非所有都是可用的。有一些是高品质的概念美术，但也有草图、CG 渲染、照片合成图像等等……

因此，必须仔细审核和准备数据。

数据准备可能是整个项目中最耗时且繁琐的部分。

为了微调出文本引导的扩散模型，我们需要构建一个高质量的训练数据集，该数据集本质上由成对的图像及其相应的描述组成。如幻灯片所示，图片下方是对图片的描述。我们并未找到适用于这项任务的工具，因此创建了名为“CAPTION STUDIO”的工具来解决这一问题。

拥有像“CAPTION STUDIO”这样的工具不仅可以帮助我们加快数据准备过程，而且在多人共同准备数据时，它能确保数据的一致性和可追溯性。

此外，它还帮助我们宣传践行了育碧在创建人工智能时定义的一些道德准则。

作为第一个重要功能，Caption Studio 允许格式化和图像去重。它通过使用类似 CLIP 的模型从图像中提取嵌入，然后计算图像之间的相似度得分来检测重复项。

然后用户可以决定保留或者去除哪个版本的图像。

下一步是手动对图像进行分类和过滤，用户可以决定拒绝一张图像或保留它，并按资产类型对其进行分类，例如概念美术、渲染、草图或按主题类型环境、角色、武器等。

最后一步是为图像添加标签，这是最耗时的部分。因为我们使用 CLIP 和 BLIP 模型的组合来自动生成标签。虽然 CLIP 和 BLIP 可视为一个半自动化的过程，但是通常效果表现一般，因此有必要人工参与审查和编辑结果。

此外，这一步也让我们践行了我之前提到的一些道德准则。例如我们在生成图像时遵循的指导原则之一是不要向 AI 提示诸如“以……的风格”和艺术家或“以……的风格”等不属于育碧的 IP 的术语。

我们也会在创建 AI 的时候遵守此准则，自动删除标签生成器添加的艺术家姓名。

有了数据集之后便可以进行多轮实验。我们基于不同的预训练模型如Stable Diffusion 1.5 或者 Stable Diffusion XL 模型来完成的实验。

在实验进行时，研究人员非常容易失去重点并尝试许多不同的参数，这里有一些经验可以分享：

从一个小数据集开始，开展少量实验和使用少量参数，以建立对参数组合的信心。由于数据集较小，训练时间可以保持相对较短，这有助于保持良好的迭代速度。而后可以逐步增加数据。

出于测试目的，我们实际上对大约 4500 张图像进行了一项实验，这些图像都是通过 AI（Caption Studio）自动添加的标签。但是效果不佳，与其他同样使用较小数据集的实验相比，结果不太令人满意。

主要原因很简单，AI 自动生成的图像描述并不准确。因此，一个重要的启示就是宁愿拥有高质量的小数据集，而不要低质量的大数据集。

最终，在进行了多次实验之后，我们得到了许多不同版本的 AI 模型，它们可能会提供略有不同的结果。实际上很难找出哪个是最好的，为了解决这个问题，我们一直在进行我们称之为“成对比较”的活动。这是一种非常常见的做法，我们向许多不同背景的人展示多对图像，每张图像都是由 2 个不同的模型之一生成的，然后要求用户选出哪一个图像表现最好。收集这些数据之后，我们可以计算分数来评估用户偏好并最终选出最佳模型。

以下是一些微调模型生成的结果：

Prompt:a painting of a ship in rough water with a statue in the background, apocalyptic tumultuous sea, environment, concept art, assassin's creed odyssey.

通过两幅图对比我们可以看到 Assassin’s Creed 模型在某种程度上更好地捕捉了绘画笔触，还捕捉了一些诸如船上的小刺客角色等，并在背景中生成了多层次的颜色。

第二个例子：

Prompt:a viking village in norway, looks peaceful, cooking smoke emitted from the chimney, environment, concept art, assassin's creed.

第二张图片显示了一个维京村庄，左边的图片很漂亮，但更偏写实风格，而右边的图片更好地捕捉了概念美术的美感。

第三个例子：

Prompt:a viking warrior, holding short-handled hatchet in hand, tattoo on face, berserker, character, concept, assassin's creed.

这是一位维京战士。SDXL 模型生成的左侧图像还不错。有些人可能会说它提供了更美观的图像，但它看起来不像是概念美术，像是 CG 渲染，我们可以看到手和斧头周围有很多缺陷。

在右侧，可以看到我们的模型学习了灰色背景下的典型概念艺术布局。它还捕捉了绘画风格，手和斧头的问题也得到了解决。

Q&A

Q1：您刚提到了一些生成模型，您对 NeRF 在视频游戏开发中应用有何看法？

A1：最近有一些新发布的技术，比如 Gaussian Splatting，展示了令人惊叹的结果。但神经网络使用的是隐式表示，而传统的游戏制作中则使用实际的几何测量来表示游戏中的对象。在游戏中运用隐式表示可能意味着技术的完全变革。我认为我们可能会在某种程度上看到这种改变，例如对纹理和材料进行压缩，以更少的内存呈现高质量，但在整个 pipeline 中这可能还需要一些时间。

Q2：您对在开发中使用 LLM 创建 agent 有什么看法？

A2：我认为现在每家游戏公司都在探讨如何使用大型语言模型创建 agent，以创建更真实、更互动的 NPC 和可玩角色。基本上这也是一个非常热门的趋势，即通过最有创意的标题和小交互来创建更智能、更可玩的角色。我认为这是一个全球性的变革，这一切发生得很快，我们也在进行一些积极的研究。

以上就是本次分享的内容，谢谢大家。