随便聊聊AIGC技术在游戏体验中的应用
其实在《Whispers from the Star》放出消息的时候就突然有点想写点什么相关的杂谈之类的东西,但拖延症懒癌让我一直拖到游戏实机游玩视频都发布了还没动笔……这导致现在内容可能有一点点事后诸葛亮的嫌疑了,再加上我本来也并非游戏或是大模型相关的职业开发者,所以分享纯粹图一乐,内容应该会比较偏向于用比较易懂的方式介绍AIGC技术在游戏中能做些什么,不太会涉及实际的技术原理(我也没有这个能力)。如果有不准确或是错误的地方也欢迎指出。
首先还是简单介绍下什么是AIGC,即 AI Generated Content,人工智能生成内容,自从22年末大语言模型ChatGPT-3发布,以及AI画图等应用的出现后,这个概念开始广泛的被大家了解以及应用,而在DeepSeek发布后也让更多人体验到了这项技术。
AI生成的文字、图片、语音已经被一些厂商应用在游戏素材中,开发者也会利用AI辅助编程生成一些代码,一些大世界游戏也是通过AI技术生成粗略的地形再进行精修。这些都是AIGC在游戏开发中的一些应用,即将AI生成的内容作为静态资源直接在游戏中使用。但不是本文的重点,因为这种模式生成的内容对游戏体验来说基本上没有任何影响,游戏的游玩方式和体验并没有什么区别,无非是内容的创作过程中有了AI的参与。
我们期望AI能做的事情当然不止于此,更期待的是类似《Whispers from the Star》中,利用AIGC实时生成游戏内容,实现游戏体验的个性化和差异化。本文想聊的,就是AIGC如何在游戏中实现这个效果,以及以当前的技术具体可以做到何种程度。
由于目前AIGC主要的实现手段还是大模型,我对AIGC的理解也基本上是基于大模型基础的,所以这里说的AIGC技术的应用基本就是大模型技术的应用。
我非常主观的将大模型技术在游戏中的应用分成了以下几层:
大模型调用、知识附加、多模态输入、游戏智能体、游戏内容生成
每一层在实现的工程难度上,以及对游戏体验带来的改变都有很大差距。
当然还是强调一下,这只是我个人非常主观的一种“分层”,并没有任何实际的理论支持这样划分,仅仅是为了我方便给本文分层帮助理解而已。
这是在游戏中应用大模型技术最简单最基础的一种方式,即在游戏中集成大模型的API,让玩家可以从游戏内的渠道使用大模型的对话功能,实现理解玩家的输入自然语言并生成对应内容的夏效果。在实现方式在游戏中可能比较少见,但是在很多日常生活使用的APP中却非常常见,这些APP所谓的集成了大模型通常就是通过这种调用API的方式实现的。
在《Whispers from the Star》中,我们应该是看不到如此露骨的未经包装的AI技术使用的。
用一个不算特别恰当的比喻来说,我们在网页、APP上使用的大模型,例如ChatGPT、DeepSeek等,就是一家家的熟食店的线下门店。这些熟食店除了可以在线下购买(在APP中使用对话功能)外,还可以提供了外卖点单的方式,这就是所谓的API。所谓游戏内集成大模型API,就相当于一家餐馆在菜单中提供了熟食商品,当用户点单熟食时,就由餐厅向熟食店点外卖,再将食品转送至用户手上。
这种形式的应用方式的实现难度非常低,但是和游戏体验来说是完全割裂的——特别是对长期熟食的人来说。究其原因,是因为这种集成方式,在输入和输出端都和游戏本身无关,即既没有将游戏内的信息——剧情背景、玩家状态等输入给大模型,而大模型输出的内容也无法对游戏本身造成任何影响——它仅仅是输出一段对话,仅此而已。
换句话说,要想大模型能真正的改变游戏体验,就得从输入和输出两端入手,让大模型真正的和游戏世界建立联系。
从输入端与游戏建立联系要稍微简单一些,一是因为输入的内容是人类给定的,游戏的开发者可以给出确定的输入内容,二是大模型本来就需要输入信息才能生成内容。
实现知识附加通常可以通过提示词工程和RAG(检索增强生成)两种技术实现,前者一般用于输入一些固定的知识(例如游戏中的剧情背景设定、需要大模型扮演的角色设定等),后者相当于给大模型配备一个实时更新的游戏百科——当玩家输入问题时,系统会先检索相关剧情资料,再将信息注入模型生成更贴合游戏世界的回答。两者的共同点是,都是在用户与大模型进行交互时,在用户提供的信息之外附加一些额外的知识,以生成符合开发者预期内容。
技术方面不再深入,更关键的是知识附加在游戏中实现了什么效果。在实现知识附加后,大模型生成的内容可以参考附加的知识,生成与游戏剧情、背景设定更相符合以及关联的内容,与QQ、豆包中的智能体比较类似。
更具体的,大模型可以在游戏中扮演NPC与玩家进行自由的对话,同时保留开发者为其设定的身份背景。在ChatGPT发布不久后,游戏《骑马与砍杀》中就有玩家实现了集成ChatGPT的自由NPC交流MOD,《燕云十六声》中也玩家也可以后类似的大模型NPC进行交流。
在《Whispers from the Star》,斯特拉能告诉玩家自己的名字、身份等,就是用到了知识附加的技术。
这种交流可以让玩家和游戏的交互的自由度显著提高,不再是只能从固定的选项和流程中推进游戏剧情,可以通过交谈的方式获取开发者隐藏在NPC设定中的关键信息,或是改变NPC对你的态度和看法从而获取奖励甚至推进剧情——你会发现要实现这一点,已经需要大模型能对游戏产生影响了,也就是需要在输出端和游戏建立联系。
是的,虽然我们已经提到了输出端了,但是第三层的重点还是在输入上。实际上第三层和第四层本身没有什么递进关系,实现难度上也完全是两个方向不好比较,这个“分层”的说法确实缺少了一些严谨性,不过目前还是先按照我的这个主观思路推进下去吧。
多模态输入是一个技术性的概念,通俗易懂一点的解释就是,能将各种不同的形式的信息输入到大模型中并让它理解,例如声音、画面、甚至玩家的操作习惯等,类似豆包中的语音通话、ChatGPT的识图功能。
引入了多模态输入后,玩家在体验大模型相关的游戏内容时,不再局限于输入文字进行交互,可以通过语音输入、绘制图片等多种形式进行。这样做有两个好处,一方面是玩家的交互方式和自由度又增加了,特别是一些通过文字交流难以表达的内容可以有更好的表达方式;另一方面是大模型本身也能更准确的判断玩家提供的信息,就像“为什么演奏《春日影》”这句话,只看文字好像只是一个普通的疑问句,但加上了人物的表情和语气两个维度的信息之后,就可以分析出角色复杂的情绪了。
可能你已经明白为什么我会将多模态输入单独提出一层了,因为《Whispers from the Star》的一个特色就是我们可以通过语音输入的方式与游戏角色斯特拉进行交流,这种交互方式不仅提高了沉浸感,也有助于游戏角色更好的理解玩家在交流中提供的信息。
实现了这大模型调用、知识附加、多模态输入三个阶段后,大模型技术已经能为玩家带来与传统游戏不一样的交互体验了,但还是只能作为游戏系统中的点缀而非核心玩法。到这一步为止,大模型生成的内容仍然只是自然语言,而非与游戏的直接交互,即无法通过用户和大模型的交互影响游戏本身。
要实现这一点,需要大模型生成的内容不再是自然语言,而是生成出能让游戏“理解”的内容,借助游戏将其“表达”出来。这里说的“表达”比较抽象,让游戏展示出某个特定的画面、给角色添加特定的道具、在关卡流程中判定玩家挑战成功/失败,都属于让游戏进行“表达”。
这就是智能体(Agent) ,能够感知环境、自主决策并采取行动以实现目标的实体(软件或硬件)。在游戏中,可以简单的理解为能够通过玩家的某些输入,让游戏产生特定行为的实体。
如之前所说,如果游戏开发者实现一个通过大模型进行讨价还价的关卡,这就是一个简单的智能体。而在《Whispers from the Star》中的斯特拉,或者说《Whispers from the Star》游戏本身就是一个非常复杂的智能体——解析玩家发出的语音消息,结合游戏世界观和关卡内容,生成出符合期望的结果,并让NPC斯特拉以合适的情绪、状态表达出来,最终判断游戏关卡是否通过。
而游戏内容生成,可能是目前大模型技术在游戏中的终极目标,即能真正的通过用户的输入,生成不同的游戏内容——包括剧情走向、场景美术、关卡设计等内容。如果能实现这一点,能让游戏的自由度、可重复游玩性等方面有质的飞跃。
然而这一点想要实现困难重重,虽然看起来似乎可以通过多个智能体组合来实现,但实际上需要解决的工程问题非常多,包括一些在智能体开发中就已经存在的问题:
如何解决记忆问题?——大模型附加的知识容量有限,在游戏时间拉长必然会出现遗忘现象
生成的游戏内容如何在玩家的硬件设备上实时渲染与资源加载成可以运行的游戏内容?——这往往需要耗费大量的硬件性能
如何保证多个智能体生成的游戏内容相互不矛盾,体验不割裂?——AI生成的内容质量难以保证,如何保证生成出的游戏内容的质量
……
要想实现真正的游戏内容生成,需要解决的问题还有很多,目前来看短期内几乎不可能在游戏中真正的实现这一点。
原本这里是想对《Whispers from the Star》中使用到的AI技术进行一些猜想,现在游戏实机视频已经给出,基本上也和之前的猜想差不多。《Whispers from the Star》中,大模型调用、知识附加、多模态输入、游戏智能体这四个阶段都已经实现。
大模型调用不用多说,我个人角度来看《Whispers from the Star》底层用于生成内容的应该就是大模型。
知识附加也是实现了的,在实机演示无论是让NPC斯特拉“记住”自己的人设、关卡环境、通关的目标,还是“记住”与玩家之前的对话内容,都需要知识附加来实现。
多模态输入不必多说,能解析玩家的语音输入就是《Whispers from the Star》的核心玩法之一。
正如上文所说,《Whispers from the Star》游戏本身就是一个非常复杂的智能体——解析玩家发出的语音消息,结合游戏世界观和关卡内容,生成出符合期望的结果,并让NPC斯特拉以合适的情绪、状态表达出来。
而游戏内容生成,恐怕在游戏中难以实现了,游戏应该还是会有设计好的关卡流程,只是会通过智能体去判定本次玩家游玩的剧情走向、挑战结果等。
即使没能做到游戏内容生成,《Whispers from the Star》也还是非常令我期待的。因为《Whispers from the Star》作为一款游戏,而非一个单纯的技术验证demo,运用了多少AI技术可能不是关键,更关键的是如何在利用AI技术的同时,规避AI技术的缺点,以带给玩家好的体验。例如,游戏中就利用宇宙远距离通信的延迟这个设定,巧妙的淡化了使用AIGC需要花费的时间。《Whispers from the Star》能将玩家体验做到哪一步,为了克服AIGC技术的缺点又做了哪些工程上以及技术上的改进?可能要等到正式发布时才会有答案。
天傲游
· 广东铥进化为科普铥.jpg