论文摘要 · 2026-06-19

Nasir 等人:让游戏「规则本身」进化——Fukai 解读 MORTAR

自动游戏设计与机制生成

一段话摘要

游戏的「机制」(决定玩家操作及其结果的、游戏根基处的规则)能否自动设计——这项研究正面回答了这个问题。以往的自动生成研究大多集中于关卡或地形的生成,自动创造并评估机制本身的尝试并不多见。作者们的 MORTAR 将机制视为 Python 代码片段,让大规模语言模型(LLM,学习了大量文本并能生成续写和回答的AI)逐步改写,同时收集并推广优质结果的系统。

关键在于「机制单独无法判断好坏,实际游玩后才能理解其意义」的理念。MORTAR 将新机制嵌入完整游戏,让5个强弱不同的AI玩家实际游玩,以「强玩家能否在游戏中确实取胜」作为质量的衡量标准。使用 GPT-4o-mini,每次运行约30至50美元的研究原型。本文将按「做了什么・怎么做的・发现了什么」的顺序逐一解析,无需打开论文即可掌握要点。

前言

今天介绍的是「MORTAR: Evolving Mechanics for Automatic Game Design」。作者为 Muhammad U. Nasir、Yuchen Li、Steven James、Julian Togelius,所属机构为威特沃特斯兰德大学(南非)和纽约大学。Julian Togelius 是长年引领程序内容生成(PCG,内容自动生成)与游戏AI领域的研究者,绘制该领域地图时会反复出现的名字。本文是2026年1月在 arXiv 上发布的预印本(arXiv:2601.00105,截至撰稿尚无法确认正式通过同行评审,故在此视为预印本处理)。

我今天选择这篇论文,是因为它代表了自动生成讨论从「关卡」终于踏入「规则本身」的一个案例,对游戏制作者颇有启示。关卡生成有大量先行研究,但机制——例如「拾取钥匙后门打开」「碰到敌人被推开」这类相互作用规则——由机器从头创造,评估难度便陡然上升。作者们正面处理了这一问题。此外,论文也提到生成的游戏可以在作者们公开的网页上实际游玩。

背景

PCG(Procedural Content Generation,程序内容生成)是长期研究的领域,应用涵盖肉鸽游戏的运行时生成、辅助设计师发想、自动化重复作业等多个方面。然而其关注大多集中于地形或关卡的「结构」。关卡的「是否可解」「是否新颖」等指标相对容易衡量好坏。

另一方面,机制——游戏相互作用规则——的自动生成相对未受重视。作者们强调的核心是:机制的价值只能在「它所引发的游玩动态」中得以体现。外表上新颖复杂的机制,若不能产生反映实力差距的游玩,也可能变得乏味。因此,生成本身之外,「评估」的设计才是本质上的难点——这是整个研究的出发点。

这一问题的重要性在于,机制决定了玩家体验的骨架。它不仅影响能做什么,还决定了什么样的策略和涌现行为成为可能。若能自动化这一环节,便有望成为拓展设计师创意的工具——不过作者们明确定位为「并非完整制作游戏的工具,而是辅助设计师、而非取代设计师」。

方法

MORTAR 的基础是品质多样性算法(Quality-Diversity,不只寻找一个最优解,而是均匀收集性质各异的优质解的探索框架),具体使用称为 MAP-Elites 的方式。每个机制都被表示为一个 Python 函数,通过两个「货架轴」整理:一是机制种类(移动・相互作用・战斗・进程・环境・谜题・资源管理・探索・时间操控共9种),二是代码复杂度(通过解析程序结构,从函数调用和赋值数量估算)。在由这两轴构成的格子的每个格中,各放置一个优质机制。

新机制由 LLM 改写生成。在现有机制基础上添加功能的「变异」、展示三个并让其生成不同风格的「多样化变异」、混合两个的「交叉」、让其生成与现有游戏相容的「适配变异」——这些进化计算(如同生物进化般,通过重复变异与选择来改善解的手法)操作,全由 LLM 承担实际的代码编辑。生成的代码先检查语法和运行错误,再在简单测试环境中让 MCTS(蒙特卡洛树搜索,大量试算未来的手并选择好手的搜索手法)AI接触,确认正常运作且非显而易见。

关键的「评估」如下:以一个机制为根,通过树搜索逐步添加其他机制,组建完整游戏。让强弱不同的5个AI——试算次数分别为10万、1万、1000次的3个 MCTS,以及随机行动和无动作的各1个——游玩该游戏,用顺位相关(衡量两个排列顺序一致程度的指标)量化「期待的强弱顺位」与「实际胜率顺位」的吻合度。强者确实能赢,这种顺序越能保持,就越被视为「实力有所体现、有深度的游戏」。省略具体公式,要点是以「结果是否符合实力」作为质量的代理指标。

此外,作者们还引入了 CITS(Constrained Importance Through Search)指标。这是借鉴合作博弈论中「夏普利值」(公平分配所有成员贡献的理念)来估算各机制对完成游戏质量贡献度的指标。原本这一计算会产生组合爆炸而难以处理,MORTAR 通过只在生成过程中构建的探索树内进行近似,将计算量压缩至可行范围。这是一种能事后指出哪条规则产生了趣味的设计。

发现

作者们将评估核心的树搜索组建方式,与其他选取方式(随机选取・让LLM选取・贪心选取最优成绩者)进行了比较。据论文 Table 1,MORTAR 在多样性指标(QD 得分 31.18)、机制贡献度最大值(Max CITS 0.59)・平均值(Mean CITS 0.20)、填满格子的要素数(155)上均表现最佳。但仅「成为可玩游戏的比例」一项,贪心选取(18.24)略胜(MORTAR 为16.97),作者们指出成绩越好的机制越容易形成可玩游戏的倾向。

个别游戏案例也颇为有趣。生成游戏 AllyCraft 的顺位相关达0.8,具有召唤友军操控多单位的复线策略,深度得以保持。而 TreasureHunt 仅为0.4,作者们整理为「一旦找到最优路径,游玩价值便下降」。顺位相关越高的游戏,多种有效策略共存、越不容易玩腻——形成对比。

也进行了人类评估。10名参与者将6个游戏分3组游玩,从「有趣・新颖・好玩・易懂・令人沮丧」的角度比较。总分与顺位相关大体方向一致,但第3组呈现相反趋势,作者们自身承认了自动指标与人类偏好难以对齐的问题。第2组「无所谓」票较多(7票),作者们将此解读为「过于复杂导致难以感受到意义」的征兆,并指出小游戏需要的是适度而非最大的复杂度。

应用场景

那么,制作游戏和谜题的人如何利用这项研究?举几个具体例子。第一,机制的「创意发想」。如果我正在制作谜题小品且思路受阻,可以考虑将现有规则作为种子交给类似 MORTAR 的机制,用适配变异大量生成「与现有机制相容的新规则候选」。不是作为完成品,而是作为人类加以筛选的素材。

第二,「实力是否有所体现」的自动检验。本论文的评估方法——让强弱不同的AI游玩,看顺位是否不乱——即便与机制生成脱钩也能挪用。如果自己正在制作 Sokoban-like(仓库番式推箱谜题),可以准备多个让步程度不同的求解器,用「难关卡越难,弱求解器越早淘汰」作为简易「深度测量」来运行。顺位崩乱的关卡,可以怀疑是靠运气或穷举解出的。

第三,「哪条规则起作用」的拆解。CITS 的理念——将完成游戏的趣味分解到各规则的贡献——在多种机制交织的游戏调整中大有用处。如果自己正在程序生成(PCG)超休闲游戏并混入多种机关,可以用类似消融实验(逐一移除设计的某个部分来确认哪里起作用的实验)的思路,一个个去掉机关并观察指标变化,作为删除贡献小的机关的判断依据。

第四,对于强化学习(reinforcement learning,通过试错学习使奖励最大化的行动的框架)研究者而言,能够测量实力差距的多样游戏群本身,可以成为检验智能体泛化能力(应对未知情况的能力)的测试场——作者们如此展望。不只对制作方有用,对训练AI的一方也有用,这种双面性是本研究有趣之处。

局限性

局限性也有坦诚的记述。作者们自身承认的首先是视觉的贫乏。渲染仅为最低限度,没有动画,精灵图(角色的图像)也十分有限。用户评估中参与者也反复指摘视觉的匮乏,论文中有明确记载。其次,使用的 LLM 是相对较小的 GPT-4o-mini——更强的模型或许能生成更精良的机制和代码。此外,二维俯视视角的设定限制了探索的广度,货架初始化方式和树搜索次数构成质量与计算成本的权衡,以及最重要的一点——目前尚无让设计师引导探索的机制。

Fukai 在此指出的是评估指标本身的偏差。以「强AI是否确实能赢」作为质量代理的理念固然清晰,但这也是对竞争性强、实力差距容易体现的游戏有利的衡量标准。注重叙事体验或氛围的游戏,抑或「谁来玩结局都一样也无妨」类型的体验,在这一指标下容易得低分。实际上,人类评估第3组自动指标与偏好出现分歧,我认为这有可能正是在展示那条边界。

还有一点让 Fukai 在意的是规模的小。人类评估为10人・6个,作者们也明确标注为「small」。尽管取了5次运行的平均值,但要将结论一般化,尚需进一步验证。此外,这是 arXiv 的预印本,撰稿时无法确认得到广泛讨论的迹象——作为尚未经过充分评价的新提案来接受,才是妥当的态度。

Fukai 的解读

以下是我的解释,事先声明。我想将本研究定位于自动生成的重心从「可见成果(关卡・地形)」向「不可见结构(规则的关系)」转移这一潮流之中。用设计批评的词汇来说,MORTAR 所做的近似于「将趣味,作为实力在结果中反映的程度来加以操作」的尝试。将趣味这一模糊之物,暂且翻译为「实力是否能产生顺位」,再进一步将其贡献分解至规则单位——这两段翻译,正是本论文的核心,我如此解读。这不是完美的衡量标准,但将机制变为「可以言说之物」,其价值在于此,可以如此整理。

后记

对于想要深入了解的人,我提示几条可能成为地图的路径。来自与本论文同属 Togelius 周边的研究,有用 LLM 和树搜索生成 PuzzleScript 谜题的 ScriptDoctor(Earle 等, 2025),本站此前也曾介绍过。用品质多样性进化棋盘游戏的 GAVEL(Todd 等, 2024)、在代码层面进化机制的 Pixie(Cook, 2025)也与 MORTAR 并列阅读,便能看清「生成什么・如何评估」的设计差异。合并阅读这些,应能把握自动游戏设计这一领域的轮廓。

我自身期待的下一步,是作者们在局限性中提及的「设计师能够引导探索的版本」。发想工具只有能「按照我方意图发想」,才能真正成为现场的伙伴。端一杯浓些的手冲咖啡,实际触摸生成的游戏,或许才是这篇论文最好的阅读方式。

参考文献

本文参考的论文与相关资料:

MORTAR: Evolving Mechanics for Automatic Game Design (Nasir, Li, James, Togelius, 2026, arXiv preprint)

・相关研究:ScriptDoctor: Automatic Generation of PuzzleScript Games via LLMs and Tree Search (Earle 等, 2025)

・相关研究:GAVEL: Generating Games via Evolution and Language Models (Todd 等, 2024)

・相关研究:Pixie: Code-level Mechanic Generation for Game Designers (Cook, 2025, AIIDE)

Reactions (no login)

Anonymous • one of each per visitor per day