PAPER-REVIEW · 2026-06-10
AI 能从头造出一整款解谜游戏吗 —— 把「生成、试玩、修复」跑起来的 ScriptDoctor
前言
初次见面,这里是 Fukai 的论文导读。我会把谜题与游戏设计的学术论文,尽量把专业术语翻译成日常语言,按问题、方法、发现、用处、局限的顺序读解。第一回,我选了一篇让 AI「从头到尾」造一款解谜游戏的研究。
要介绍的是 2025 年 6 月 6 日在 arXiv 公开的 ScriptDoctor: Automatic Generation of PuzzleScript Games via Large Language Models and Tree Search。以纽约大学的 Sam Earle 为首,由马耳他大学、金山大学(Witwatersrand)、微软的研究者共 7 人合著,是投给游戏 AI 领域国际会议 IEEE Conference on Games (CoG) 的一篇短论文。作者之一 Julian Togelius,以游戏内容自动生成(Procedural Content Generation)研究的先驱而为人所知。
为什么第一篇就选它?因为题材是 PuzzleScript。Stephen Lavelle(increpare)于 2013 年公开的这门解谜游戏专用迷你语言,用几十行文本就能把推箱子类游戏的规则、图像、关卡一并写出来,从 Baba Is You 的 Hempuli 起,全世界的个人开发者都用它做原型。本站读者熟悉的世界,就这样原样成了研究的实验台。
问题 —— 「AI 造了一款游戏」,要如何确认?
刷一下社交网络,「让 AI 造了款游戏」这样的帖子要多少有多少。作者们的出发点,是对这番景象的一个朴素疑问。它是不是一款好游戏?会不会只是训练数据里某样东西的、略加翻新的复刻?还有,除了人类一个个亲自试玩去确认,难道就没有别的办法吗?
用 JavaScript 或 Python 写的一般游戏,几乎没有「让机器自动试玩、确认品质」的手段。只要评价仍依赖人手,实验就上不了规模,也无法系统地调查「该怎么下指令才能产出好游戏」。在 AI 能否造游戏之前,先没有一把衡量「是否造出来了」的尺子——这正是这篇论文所面对的问题。
于是作者们就像生物学研究用大肠杆菌、果蝇这样的「模式生物」来探究生命机制一样,选了 PuzzleScript 作为实验用的小世界。理由有三。第一,用很短的文本就能写出整款游戏,作为语言模型的输出便于处理。第二,引擎轻量、输入输出格式固定,可以让机器试玩成千上万次。第三,人类迄今公开过的 PuzzleScript 作品大致可以尽数掌握,所以这是一个罕见的环境——将来能够追问「是否真的造出了新东西」。
方法 —— 生成、检查、再重做的循环
ScriptDoctor 的内核,一句话说就是「生成→检查→修正」的循环。首先 LLM(实验中用 GPT-4o、o1、o3-mini)写出 PuzzleScript 的整套代码——对象定义、规则、胜利条件、关卡。提示词里附上 PuzzleScript 的文档、来自一个收集了 610 款人类制作游戏的数据库的实例,以及一个「头脑风暴」代理给出的设计方案。
检查分两个阶段。第一阶段是编译。把生成的代码通过 PuzzleScript 引擎,一旦出现错误或警告,就原样退回给 LLM。同时,一个把 PuzzleScript 文法写成上下文无关文法的检查器(用 Python 的 Lark 库制作)会指出语法错误。
编译通过后进入第二阶段,这次由机器实际试玩。广度优先搜索(BFS)——从浅层着手、近乎穷举地一丝不苟地排查的搜索法——对每个关卡最多探索 100 万个局面,报告「是否可解」「解为几步」「找到为止查了多少局面」。这三个数字经服务器成为给 LLM 的反馈。
给 LLM 的机会是 10 次。当造出一款所有关卡都存在 11 步以上解的游戏,即为成功;不成功则被出示上一轮的代码与检查结果、重写一遍。把人类设计师「做、玩、改」反复的工序,尽可能只用机器跑起来——这就是这条流水线的设计思想。
发现 —— 实例有效、会思考的模型获胜,以及「坏了却有趣」
先从最清楚的结果说起。不展示人类制作游戏实例(zero-shot)时,GPT-4o 写出的游戏里编译通过的占 30%,拥有搜索代理可解关卡的占 0%。可一旦把实例放进提示词(few-shot),编译成功率就跳到 70〜80%,半数以上的游戏里诞生了可解的关卡。PuzzleScript 不像 Python 那样是主流语言,所以有没有范例起决定性作用——作者们自己也写道,这在预料之中。
模型之间的比较也耐人寻味。在相同条件(few-shot、1 万 token 上下文)下各造 10 款,编译成功率 GPT-4o 为 67%,推理模型 o1 为 87%,o3-mini 为 93%。在「所有关卡都可解的游戏」比例上,o3-mini 的 20% 最高。结果是:在写出之前先拥有思考时间的模型,更擅长搭起前后一致的规则与关卡。另外,往提示词里塞的实例在 3 万 token 附近效果就到顶了。
论文的精彩之处,是 o1 生成的一款名为「Unconventional PushPull」的游戏。除了推箱、拉箱这类老套路,还有「当玩家前进的路被挡住时,箱子会多滑一格」的变则规则,并牵涉开关与门。最短解 34 步,连一丝不苟的 BFS 也查了 1,006 个局面才终于找到解。作者们的评价是「对人类玩家而言,刁钻但说得通」。
不过,并非全是光明的话。作者们诚实地写道——生成出来的游戏的复杂性,往往是「尽管机制坏了、或者正因为机制坏了」才产生的。在一款魔法师能穿墙或破墙的生成游戏里,大概并非有意的行为组合,结果反倒造出了有嚼劲的解。再者,生成的精灵图很抽象,有时甚至不可见,所以论文的图版里换成了人类制作游戏的画。能写出规则,但外观与意图的一致还很遥远。
用处 —— 给开发者与玩家各自的收获
对个人开发者来说,最容易带走的,我想不是 AI 本身,而是「让求解器自动验证」这一设计习惯。让搜索算法去解自己做的关卡,看看解的长度与搜索量——这是不用 LLM、今天就能照做的品质检查。只有 3 步解的关卡,反过来连穷举也找不到的关卡,数据会先一步告诉你。
若要做 ScriptDoctor 式的使用,它的定位应是「草稿的量产机」。10 次的自我修正循环,是把人类「做、玩、改」粗略自动化了的东西。游戏 Jam 第一天让它出 10 个变则规则的种子,扔掉 9 个、打磨 1 个。Unconventional PushPull 的例子表明,那 1 个说不定还不赖。
对游玩的一方而言,这篇论文可读作衡量「可解」与「有趣」之间距离的尺子。BFS 的探索局面数终究是「对计算机而言的难度」,与人类感受到的灵光一现的快感是两回事。反过来说,优秀的人类制作谜题所拥有的某种东西——意图的传达、对误解的诱导、解开那一瞬豁然开朗的方式——作为这篇论文的测量装置尚且照不出来的东西,其轮廓反而浮现了出来。
在研究的语境里,作者们提出一个构想:把这条流水线的输出当作「已编译、保证可解的数据集」,用于对更小的模型做微调。带验证装置的生成系统,本身也能成为教材制造机——这是他们的看法。
局限 —— 这篇论文没有衡量的东西
先说体例。这是一篇 5 页的短论文,arXiv 公开时点处于向 CoG「投稿中」的阶段。各条件下生成的游戏也只有 10〜20 款,规模偏小,所以表里的数字与其当作严格比较,不如读作趋势更稳妥。
其次,是最重要的局限。这项研究衡量的只有「能否编译通过」「是否可解」「解是否够长」,并没有衡量「是否有趣」。没有由人类玩家进行的评价实验,作者们自己也注明,许多人类制作的名作虽只有很短的解却很有趣。解的长度与搜索量,只是有趣度的极为粗糙的代理变量。
技术上的弱点也写得很清楚。LLM 不擅长关卡设计所需的空间推理,放任不管就容易造出解太短的关卡。即便请求「再多点嚼劲」,也多半只是把关卡延长几行、或把障碍物稀疏地摆一摆而已。此外,机制没按意图运作(坏了),系统也无法自行诊断。作者们提出的未来方案是:把试玩画面的影像给带视觉的语言模型看,让它找出毛病。
最后,开篇的问题——「会不会只是训练数据的翻新复刻」——其实这篇论文也还没能回答。衡量与既有 610 款相似度的机制,作为今后的课题被留了下来;选择 PuzzleScript 这个「能大致尽数掌握全部作品的环境」的意义,真正发挥作用,要等到那项验证被实现之时。
参考文献
・ScriptDoctor: Automatic Generation of PuzzleScript Games via Large Language Models and Tree Search(Sam Earle, Ahmed Khalifa, Muhammad Umair Nasir, Zehua Jiang, Graham Todd, Andrzej Banburski-Fahey, Julian Togelius,arXiv:2506.06524,2025 年 6 月 6 日公开,CC BY 4.0)
・PuzzleScript(Stephen Lavelle,2013 年公开的解谜游戏脚本语言。本体在 GitHub 公开)
・PuzzleScript games database(论文用作 few-shot 实例的、610 款人类制作作品数据集的出处)
・相关研究:GAVEL: Generating Games via Evolution and Language Models(Todd 等,2024。在 Ludii 框架上结合进化计算与 LLM 的先行研究)
结语
「AI 造游戏」这个话题,总容易摆向期待或不安的某一端。这篇论文的好处,我想在于它在那之前停下脚步,先搭好了「衡量是否造出来了的装置」。装置目前照出的还只到「编译通过、能被穷举解开」为止,我们在谜题里感到的乐趣大半照不出来。但正因为试着去衡量了,照不出之物的轮廓才得以清晰。
Fukai 的论文导读,第一回到此为止。下一回也会选一篇围绕游戏设计的研究,用同样的五个切口来读解。
Reactions (no login)
Anonymous • one of each per visitor per day