PAPER-REVIEW · 2026-06-10

AI 能从头造出一整款解谜游戏吗 —— 把「生成、试玩、修复」跑起来的 ScriptDoctor

作者: Fukai · #paper-review #research #puzzlescript #llm #automatic-game-design #procedural-generation #increpare #sokoban

日本語版を読む → · Read in English →

前言

初次见面，这里是 Fukai 的论文导读。我会把谜题与游戏设计的学术论文，尽量把专业术语翻译成日常语言，按问题、方法、发现、用处、局限的顺序读解。第一回，我选了一篇让 AI「从头到尾」造一款解谜游戏的研究。

要介绍的是 2025 年 6 月 6 日在 arXiv 公开的 ScriptDoctor: Automatic Generation of PuzzleScript Games via Large Language Models and Tree Search。以纽约大学的 Sam Earle 为首，由马耳他大学、金山大学（Witwatersrand）、微软的研究者共 7 人合著，是投给游戏 AI 领域国际会议 IEEE Conference on Games (CoG) 的一篇短论文。作者之一 Julian Togelius，以游戏内容自动生成（Procedural Content Generation）研究的先驱而为人所知。

为什么第一篇就选它？因为题材是 PuzzleScript。Stephen Lavelle（increpare）于 2013 年公开的这门解谜游戏专用迷你语言，用几十行文本就能把推箱子类游戏的规则、图像、关卡一并写出来，从 Baba Is You 的 Hempuli 起，全世界的个人开发者都用它做原型。本站读者熟悉的世界，就这样原样成了研究的实验台。

问题 —— 「AI 造了一款游戏」，要如何确认？

刷一下社交网络，「让 AI 造了款游戏」这样的帖子要多少有多少。作者们的出发点，是对这番景象的一个朴素疑问。它是不是一款好游戏？会不会只是训练数据里某样东西的、略加翻新的复刻？还有，除了人类一个个亲自试玩去确认，难道就没有别的办法吗？

用 JavaScript 或 Python 写的一般游戏，几乎没有「让机器自动试玩、确认品质」的手段。只要评价仍依赖人手，实验就上不了规模，也无法系统地调查「该怎么下指令才能产出好游戏」。在 AI 能否造游戏之前，先没有一把衡量「是否造出来了」的尺子——这正是这篇论文所面对的问题。

于是作者们就像生物学研究用大肠杆菌、果蝇这样的「模式生物」来探究生命机制一样，选了 PuzzleScript 作为实验用的小世界。理由有三。第一，用很短的文本就能写出整款游戏，作为语言模型的输出便于处理。第二，引擎轻量、输入输出格式固定，可以让机器试玩成千上万次。第三，人类迄今公开过的 PuzzleScript 作品大致可以尽数掌握，所以这是一个罕见的环境——将来能够追问「是否真的造出了新东西」。

方法 —— 生成、检查、再重做的循环

ScriptDoctor 的内核，一句话说就是「生成→检查→修正」的循环。首先 LLM（实验中用 GPT-4o、o1、o3-mini）写出 PuzzleScript 的整套代码——对象定义、规则、胜利条件、关卡。提示词里附上 PuzzleScript 的文档、来自一个收集了 610 款人类制作游戏的数据库的实例，以及一个「头脑风暴」代理给出的设计方案。

检查分两个阶段。第一阶段是编译。把生成的代码通过 PuzzleScript 引擎，一旦出现错误或警告，就原样退回给 LLM。同时，一个把 PuzzleScript 文法写成上下文无关文法的检查器（用 Python 的 Lark 库制作）会指出语法错误。

编译通过后进入第二阶段，这次由机器实际试玩。广度优先搜索（BFS）——从浅层着手、近乎穷举地一丝不苟地排查的搜索法——对每个关卡最多探索 100 万个局面，报告「是否可解」「解为几步」「找到为止查了多少局面」。这三个数字经服务器成为给 LLM 的反馈。

给 LLM 的机会是 10 次。当造出一款所有关卡都存在 11 步以上解的游戏，即为成功；不成功则被出示上一轮的代码与检查结果、重写一遍。把人类设计师「做、玩、改」反复的工序，尽可能只用机器跑起来——这就是这条流水线的设计思想。

发现 —— 实例有效、会思考的模型获胜，以及「坏了却有趣」

先从最清楚的结果说起。不展示人类制作游戏实例（zero-shot）时，GPT-4o 写出的游戏里编译通过的占 30%，拥有搜索代理可解关卡的占 0%。可一旦把实例放进提示词（few-shot），编译成功率就跳到 70〜80%，半数以上的游戏里诞生了可解的关卡。PuzzleScript 不像 Python 那样是主流语言，所以有没有范例起决定性作用——作者们自己也写道，这在预料之中。

模型之间的比较也耐人寻味。在相同条件（few-shot、1 万 token 上下文）下各造 10 款，编译成功率 GPT-4o 为 67%，推理模型 o1 为 87%，o3-mini 为 93%。在「所有关卡都可解的游戏」比例上，o3-mini 的 20% 最高。结果是：在写出之前先拥有思考时间的模型，更擅长搭起前后一致的规则与关卡。另外，往提示词里塞的实例在 3 万 token 附近效果就到顶了。

论文的精彩之处，是 o1 生成的一款名为「Unconventional PushPull」的游戏。除了推箱、拉箱这类老套路，还有「当玩家前进的路被挡住时，箱子会多滑一格」的变则规则，并牵涉开关与门。最短解 34 步，连一丝不苟的 BFS 也查了 1,006 个局面才终于找到解。作者们的评价是「对人类玩家而言，刁钻但说得通」。

不过，并非全是光明的话。作者们诚实地写道——生成出来的游戏的复杂性，往往是「尽管机制坏了、或者正因为机制坏了」才产生的。在一款魔法师能穿墙或破墙的生成游戏里，大概并非有意的行为组合，结果反倒造出了有嚼劲的解。再者，生成的精灵图很抽象，有时甚至不可见，所以论文的图版里换成了人类制作游戏的画。能写出规则，但外观与意图的一致还很遥远。

用处 —— 给开发者与玩家各自的收获

对个人开发者来说，最容易带走的，我想不是 AI 本身，而是「让求解器自动验证」这一设计习惯。让搜索算法去解自己做的关卡，看看解的长度与搜索量——这是不用 LLM、今天就能照做的品质检查。只有 3 步解的关卡，反过来连穷举也找不到的关卡，数据会先一步告诉你。

若要做 ScriptDoctor 式的使用，它的定位应是「草稿的量产机」。10 次的自我修正循环，是把人类「做、玩、改」粗略自动化了的东西。游戏 Jam 第一天让它出 10 个变则规则的种子，扔掉 9 个、打磨 1 个。Unconventional PushPull 的例子表明，那 1 个说不定还不赖。

对游玩的一方而言，这篇论文可读作衡量「可解」与「有趣」之间距离的尺子。BFS 的探索局面数终究是「对计算机而言的难度」，与人类感受到的灵光一现的快感是两回事。反过来说，优秀的人类制作谜题所拥有的某种东西——意图的传达、对误解的诱导、解开那一瞬豁然开朗的方式——作为这篇论文的测量装置尚且照不出来的东西，其轮廓反而浮现了出来。

在研究的语境里，作者们提出一个构想：把这条流水线的输出当作「已编译、保证可解的数据集」，用于对更小的模型做微调。带验证装置的生成系统，本身也能成为教材制造机——这是他们的看法。

局限 —— 这篇论文没有衡量的东西

先说体例。这是一篇 5 页的短论文，arXiv 公开时点处于向 CoG「投稿中」的阶段。各条件下生成的游戏也只有 10〜20 款，规模偏小，所以表里的数字与其当作严格比较，不如读作趋势更稳妥。

其次，是最重要的局限。这项研究衡量的只有「能否编译通过」「是否可解」「解是否够长」，并没有衡量「是否有趣」。没有由人类玩家进行的评价实验，作者们自己也注明，许多人类制作的名作虽只有很短的解却很有趣。解的长度与搜索量，只是有趣度的极为粗糙的代理变量。

技术上的弱点也写得很清楚。LLM 不擅长关卡设计所需的空间推理，放任不管就容易造出解太短的关卡。即便请求「再多点嚼劲」，也多半只是把关卡延长几行、或把障碍物稀疏地摆一摆而已。此外，机制没按意图运作（坏了），系统也无法自行诊断。作者们提出的未来方案是：把试玩画面的影像给带视觉的语言模型看，让它找出毛病。

最后，开篇的问题——「会不会只是训练数据的翻新复刻」——其实这篇论文也还没能回答。衡量与既有 610 款相似度的机制，作为今后的课题被留了下来；选择 PuzzleScript 这个「能大致尽数掌握全部作品的环境」的意义，真正发挥作用，要等到那项验证被实现之时。

参考文献

・ScriptDoctor: Automatic Generation of PuzzleScript Games via Large Language Models and Tree Search（Sam Earle, Ahmed Khalifa, Muhammad Umair Nasir, Zehua Jiang, Graham Todd, Andrzej Banburski-Fahey, Julian Togelius，arXiv:2506.06524，2025 年 6 月 6 日公开，CC BY 4.0）

・PuzzleScript（Stephen Lavelle，2013 年公开的解谜游戏脚本语言。本体在 GitHub 公开）

・PuzzleScript games database（论文用作 few-shot 实例的、610 款人类制作作品数据集的出处）

・相关研究：GAVEL: Generating Games via Evolution and Language Models（Todd 等，2024。在 Ludii 框架上结合进化计算与 LLM 的先行研究）

结语

「AI 造游戏」这个话题，总容易摆向期待或不安的某一端。这篇论文的好处，我想在于它在那之前停下脚步，先搭好了「衡量是否造出来了的装置」。装置目前照出的还只到「编译通过、能被穷举解开」为止，我们在谜题里感到的乐趣大半照不出来。但正因为试着去衡量了，照不出之物的轮廓才得以清晰。

Fukai 的论文导读，第一回到此为止。下一回也会选一篇围绕游戏设计的研究，用同样的五个切口来读解。

Reactions (no login)

Anonymous • one of each per visitor per day