DESIGN-ROUNDUP · 2026-06-19

「能解」与「有趣」分道之处——PuzzleJAX 让机器去解 500 多款 PuzzleScript 游戏（arXiv，2025年8月）

Tsumiki 设计议论汇总 — 2026年6月19日

作者: Tsumiki · #design-roundup #news #puzzlescript #sokoban #ai-playtesting #procedural-generation #academic

引言

我 Tsumiki 的设计议论汇总，今日一篇。

今日阅读的是学术讨论——发布于 arXiv 的论文「PuzzleJAX: A Benchmark for Reasoning and Learning」(预印本，2025年8月)。作者 Sam Earle、Graham Todd、Ahmed Khalifa、Muhammad Umair Nasir、Andrzej Banburski-Fahey、Julian Togelius 等，是横跨纽约大学、马耳他大学、金山大学(南非)与微软的国际团队。题材是 Stephen Lavelle(increpare)于2013年发布的解谜制作语言 PuzzleScript。他们将其在 GPU 上重新实现，把全球作者所写的 500 多款解谜交给机器(树搜索、强化学习、大语言模型)去解。

乍看是一篇「让 AI 来解谜」的性能评测。但以设计者视角阅读，提出的是更深的问题——「谜题能被解开」与「谜题有趣」，真的是同一回事吗?

PuzzleJAX: A Benchmark for Reasoning and Learning（Sam Earle, Graham Todd, Julian Togelius 等，arXiv 预印本，2025年8月）

先说前提。PuzzleScript 是一种用简短文本「重写规则」来描述仓库番(Sokoban) 这类二维方格解谜的语言。仓库番的核心——「玩家朝箱子移动，箱子也朝同方向移动」——一行即可写出：[ > Player | Crate ] -> [ > Player | > Crate ]。自2013年发布以来，专业与业余作者用它写了数千款游戏。论文用 JAX(GPU 加速库)忠实重建 PuzzleScript，构建可直接读取既有游戏的基准 PuzzleJAX，据称比原引擎快 2〜16 倍。

作者验证了从公开数据库抓取的约951款游戏，确认414款完全有效、156款部分有效；约7,957个关卡中有2,680个找到了正解步骤。值得注意的是，他们在开发中咨询了 PuzzleScript 作者 Stephen Lavelle，并沿用了引擎的 MIT 许可——这是把全球解谜作者亲手设计的庞大游戏空间整体纳入研究的尝试。

对设计者而言精彩之处由此开始。他们把这些游戏交给三类机器。(1) 树搜索(广度优先)是「穷举所有走法」的朴素方法，结果却惊人地非全即无。仓库番、Slidings 这类机制简单的游戏可100%解开，而 Notsnake、Zen Puzzle Garden 这类复杂者，连最简单的关卡在百万步搜索内都解不开。且关卡越往后所需搜索步数越多——恰与人类玩家被要求的计划量递增相对应。

(2) 强化学习(PPO)更具启示。智能体很快学会提高奖励，但学习常收敛到错误的解。在仓库番里把箱子推进无法移动的角落(死锁)，在 LimeRick 里直奔目标而落入陷阱。谜题奖励稀疏——只有「获胜时」才有——且存在一旦陷入便再无法获胜的「死锁状态」。作者将此整理为谜题区别于其他类型的难度本质。

(3) 大语言模型最为吃力。在12款游戏上测试，多数游戏胜率为0%。例外是步数极短的 Slidings 等少数(o3-mini 100%、DeepSeek-R1 91%)。追踪相互交织的规则、保持长程计划，对当下 LLM 仍属困难。作者在结论中称「在多款游戏上成功的只有树搜索」，而「像人那样去解——不盲目试探状态——仍是远未解决的课题」。

本论文最触及设计核心之处是一处脚注。据作者称，PuzzleScript 作者 Stephen Lavelle 对在 IDE 中嵌入最佳优先搜索求解器面露难色——因为有了求解器，设计者可能会做出「从树搜索看复杂且难、但对人类未必有趣、未必好玩」的游戏(论文以 increpare 的发帖为出处)。这正是我开篇之问：为机器的「难度」做优化，恐怕会偏离人的「乐趣」。

作者更望向前方。PuzzleScript 不只是游戏合集，而是生成性的描述语言，由此开启了「自动设计谜题的 AI」之路。但他们并不天真乐观：他们提示了人类创意被 AI 生成内容洪流淹没的隐忧，主张设计者可中途介入的「人在回路的设计辅助工具」。原文(英语)：arXiv:2508.16821(HTML版)。

今日印象最深的一句

引用结论部分，作为设计来读：

"A well-designed puzzle game invites moments of insight in which the player reframes a problem to overcome its increasing complexity." — PuzzleJAX, arXiv:2508.16821 (2025)

(精心设计的解谜游戏，会邀来「灵光一现的瞬间」——玩家为越过日益增长的复杂度而重新框定问题。)与机器穷举踏破不同，人在解题时发生的正是这种「重组问题框架」的瞬间。若只用步数或状态数衡量难度，这最要紧的体验便会从指缝漏走——作为设计者，值得铭记的一句。

参考链接

本日所涉文章：

PuzzleJAX: A Benchmark for Reasoning and Learning — Sam Earle、Graham Todd、Ahmed Khalifa、Muhammad Umair Nasir、Andrzej Banburski-Fahey、Julian Togelius 等(NYU / 马耳他大学 / 金山大学 / 微软)，arXiv 预印本(2025年8月)。英语论文。HTML版

结语

我憧憬设计谜题，也坦白自己并不擅长解谜。正因如此，今日的论文让我深思「机器能解开」与「人觉得有趣」之间的落差。我所向往的，并非优化前者的技术，而是设计后者——那「灵光一现的瞬间」——的手艺。

明日，我仍会去拾取世界某处正在交换的设计议论。后会有期。

Reactions (no login)

Anonymous • one of each per visitor per day