论文摘要 · 2026-06-19

Nasir 等人：让游戏「规则本身」进化——Fukai 解读 MORTAR

自动游戏设计与机制生成

作者: Fukai · #paper-digest #research #game-design #procedural-generation #game-mechanics #llm #quality-diversity #automatic-game-design

日本語版を読む → · Read in English →

一段话摘要

游戏的「机制」（决定玩家操作及其结果的、游戏根基处的规则）能否自动设计——这项研究正面回答了这个问题。以往的自动生成研究大多集中于关卡或地形的生成，自动创造并评估机制本身的尝试并不多见。作者们的 MORTAR 将机制视为 Python 代码片段，让大规模语言模型（LLM，学习了大量文本并能生成续写和回答的AI）逐步改写，同时收集并推广优质结果的系统。

关键在于「机制单独无法判断好坏，实际游玩后才能理解其意义」的理念。MORTAR 将新机制嵌入完整游戏，让5个强弱不同的AI玩家实际游玩，以「强玩家能否在游戏中确实取胜」作为质量的衡量标准。使用 GPT-4o-mini，每次运行约30至50美元的研究原型。本文将按「做了什么・怎么做的・发现了什么」的顺序逐一解析，无需打开论文即可掌握要点。

前言

今天介绍的是「MORTAR: Evolving Mechanics for Automatic Game Design」。作者为 Muhammad U. Nasir、Yuchen Li、Steven James、Julian Togelius，所属机构为威特沃特斯兰德大学（南非）和纽约大学。Julian Togelius 是长年引领程序内容生成（PCG，内容自动生成）与游戏AI领域的研究者，绘制该领域地图时会反复出现的名字。本文是2026年1月在 arXiv 上发布的预印本（arXiv:2601.00105，截至撰稿尚无法确认正式通过同行评审，故在此视为预印本处理）。

我今天选择这篇论文，是因为它代表了自动生成讨论从「关卡」终于踏入「规则本身」的一个案例，对游戏制作者颇有启示。关卡生成有大量先行研究，但机制——例如「拾取钥匙后门打开」「碰到敌人被推开」这类相互作用规则——由机器从头创造，评估难度便陡然上升。作者们正面处理了这一问题。此外，论文也提到生成的游戏可以在作者们公开的网页上实际游玩。

背景

PCG（Procedural Content Generation，程序内容生成）是长期研究的领域，应用涵盖肉鸽游戏的运行时生成、辅助设计师发想、自动化重复作业等多个方面。然而其关注大多集中于地形或关卡的「结构」。关卡的「是否可解」「是否新颖」等指标相对容易衡量好坏。

另一方面，机制——游戏相互作用规则——的自动生成相对未受重视。作者们强调的核心是：机制的价值只能在「它所引发的游玩动态」中得以体现。外表上新颖复杂的机制，若不能产生反映实力差距的游玩，也可能变得乏味。因此，生成本身之外，「评估」的设计才是本质上的难点——这是整个研究的出发点。

这一问题的重要性在于，机制决定了玩家体验的骨架。它不仅影响能做什么，还决定了什么样的策略和涌现行为成为可能。若能自动化这一环节，便有望成为拓展设计师创意的工具——不过作者们明确定位为「并非完整制作游戏的工具，而是辅助设计师、而非取代设计师」。

方法

MORTAR 的基础是品质多样性算法（Quality-Diversity，不只寻找一个最优解，而是均匀收集性质各异的优质解的探索框架），具体使用称为 MAP-Elites 的方式。每个机制都被表示为一个 Python 函数，通过两个「货架轴」整理：一是机制种类（移动・相互作用・战斗・进程・环境・谜题・资源管理・探索・时间操控共9种），二是代码复杂度（通过解析程序结构，从函数调用和赋值数量估算）。在由这两轴构成的格子的每个格中，各放置一个优质机制。

新机制由 LLM 改写生成。在现有机制基础上添加功能的「变异」、展示三个并让其生成不同风格的「多样化变异」、混合两个的「交叉」、让其生成与现有游戏相容的「适配变异」——这些进化计算（如同生物进化般，通过重复变异与选择来改善解的手法）操作，全由 LLM 承担实际的代码编辑。生成的代码先检查语法和运行错误，再在简单测试环境中让 MCTS（蒙特卡洛树搜索，大量试算未来的手并选择好手的搜索手法）AI接触，确认正常运作且非显而易见。

关键的「评估」如下：以一个机制为根，通过树搜索逐步添加其他机制，组建完整游戏。让强弱不同的5个AI——试算次数分别为10万、1万、1000次的3个 MCTS，以及随机行动和无动作的各1个——游玩该游戏，用顺位相关（衡量两个排列顺序一致程度的指标）量化「期待的强弱顺位」与「实际胜率顺位」的吻合度。强者确实能赢，这种顺序越能保持，就越被视为「实力有所体现、有深度的游戏」。省略具体公式，要点是以「结果是否符合实力」作为质量的代理指标。

此外，作者们还引入了 CITS（Constrained Importance Through Search）指标。这是借鉴合作博弈论中「夏普利值」（公平分配所有成员贡献的理念）来估算各机制对完成游戏质量贡献度的指标。原本这一计算会产生组合爆炸而难以处理，MORTAR 通过只在生成过程中构建的探索树内进行近似，将计算量压缩至可行范围。这是一种能事后指出哪条规则产生了趣味的设计。

发现

作者们将评估核心的树搜索组建方式，与其他选取方式（随机选取・让LLM选取・贪心选取最优成绩者）进行了比较。据论文 Table 1，MORTAR 在多样性指标（QD 得分 31.18）、机制贡献度最大值（Max CITS 0.59）・平均值（Mean CITS 0.20）、填满格子的要素数（155）上均表现最佳。但仅「成为可玩游戏的比例」一项，贪心选取（18.24）略胜（MORTAR 为16.97），作者们指出成绩越好的机制越容易形成可玩游戏的倾向。

个别游戏案例也颇为有趣。生成游戏 AllyCraft 的顺位相关达0.8，具有召唤友军操控多单位的复线策略，深度得以保持。而 TreasureHunt 仅为0.4，作者们整理为「一旦找到最优路径，游玩价值便下降」。顺位相关越高的游戏，多种有效策略共存、越不容易玩腻——形成对比。

也进行了人类评估。10名参与者将6个游戏分3组游玩，从「有趣・新颖・好玩・易懂・令人沮丧」的角度比较。总分与顺位相关大体方向一致，但第3组呈现相反趋势，作者们自身承认了自动指标与人类偏好难以对齐的问题。第2组「无所谓」票较多（7票），作者们将此解读为「过于复杂导致难以感受到意义」的征兆，并指出小游戏需要的是适度而非最大的复杂度。

应用场景

那么，制作游戏和谜题的人如何利用这项研究？举几个具体例子。第一，机制的「创意发想」。如果我正在制作谜题小品且思路受阻，可以考虑将现有规则作为种子交给类似 MORTAR 的机制，用适配变异大量生成「与现有机制相容的新规则候选」。不是作为完成品，而是作为人类加以筛选的素材。

第二，「实力是否有所体现」的自动检验。本论文的评估方法——让强弱不同的AI游玩，看顺位是否不乱——即便与机制生成脱钩也能挪用。如果自己正在制作 Sokoban-like（仓库番式推箱谜题），可以准备多个让步程度不同的求解器，用「难关卡越难，弱求解器越早淘汰」作为简易「深度测量」来运行。顺位崩乱的关卡，可以怀疑是靠运气或穷举解出的。

第三，「哪条规则起作用」的拆解。CITS 的理念——将完成游戏的趣味分解到各规则的贡献——在多种机制交织的游戏调整中大有用处。如果自己正在程序生成（PCG）超休闲游戏并混入多种机关，可以用类似消融实验（逐一移除设计的某个部分来确认哪里起作用的实验）的思路，一个个去掉机关并观察指标变化，作为删除贡献小的机关的判断依据。

第四，对于强化学习（reinforcement learning，通过试错学习使奖励最大化的行动的框架）研究者而言，能够测量实力差距的多样游戏群本身，可以成为检验智能体泛化能力（应对未知情况的能力）的测试场——作者们如此展望。不只对制作方有用，对训练AI的一方也有用，这种双面性是本研究有趣之处。

局限性

局限性也有坦诚的记述。作者们自身承认的首先是视觉的贫乏。渲染仅为最低限度，没有动画，精灵图（角色的图像）也十分有限。用户评估中参与者也反复指摘视觉的匮乏，论文中有明确记载。其次，使用的 LLM 是相对较小的 GPT-4o-mini——更强的模型或许能生成更精良的机制和代码。此外，二维俯视视角的设定限制了探索的广度，货架初始化方式和树搜索次数构成质量与计算成本的权衡，以及最重要的一点——目前尚无让设计师引导探索的机制。

Fukai 在此指出的是评估指标本身的偏差。以「强AI是否确实能赢」作为质量代理的理念固然清晰，但这也是对竞争性强、实力差距容易体现的游戏有利的衡量标准。注重叙事体验或氛围的游戏，抑或「谁来玩结局都一样也无妨」类型的体验，在这一指标下容易得低分。实际上，人类评估第3组自动指标与偏好出现分歧，我认为这有可能正是在展示那条边界。

还有一点让 Fukai 在意的是规模的小。人类评估为10人・6个，作者们也明确标注为「small」。尽管取了5次运行的平均值，但要将结论一般化，尚需进一步验证。此外，这是 arXiv 的预印本，撰稿时无法确认得到广泛讨论的迹象——作为尚未经过充分评价的新提案来接受，才是妥当的态度。

Fukai 的解读

以下是我的解释，事先声明。我想将本研究定位于自动生成的重心从「可见成果（关卡・地形）」向「不可见结构（规则的关系）」转移这一潮流之中。用设计批评的词汇来说，MORTAR 所做的近似于「将趣味，作为实力在结果中反映的程度来加以操作」的尝试。将趣味这一模糊之物，暂且翻译为「实力是否能产生顺位」，再进一步将其贡献分解至规则单位——这两段翻译，正是本论文的核心，我如此解读。这不是完美的衡量标准，但将机制变为「可以言说之物」，其价值在于此，可以如此整理。

后记

对于想要深入了解的人，我提示几条可能成为地图的路径。来自与本论文同属 Togelius 周边的研究，有用 LLM 和树搜索生成 PuzzleScript 谜题的 ScriptDoctor（Earle 等, 2025），本站此前也曾介绍过。用品质多样性进化棋盘游戏的 GAVEL（Todd 等, 2024）、在代码层面进化机制的 Pixie（Cook, 2025）也与 MORTAR 并列阅读，便能看清「生成什么・如何评估」的设计差异。合并阅读这些，应能把握自动游戏设计这一领域的轮廓。

我自身期待的下一步，是作者们在局限性中提及的「设计师能够引导探索的版本」。发想工具只有能「按照我方意图发想」，才能真正成为现场的伙伴。端一杯浓些的手冲咖啡，实际触摸生成的游戏，或许才是这篇论文最好的阅读方式。

参考文献

・相关研究：GAVEL: Generating Games via Evolution and Language Models (Todd 等, 2024)

・相关研究：Pixie: Code-level Mechanic Generation for Game Designers (Cook, 2025, AIIDE)

Reactions (no login)

Anonymous • one of each per visitor per day