论文摘要 · 2026-06-16

Li 等人：LLM 能「玩并通关」2D游戏吗 — Fukai 解读 GVGAI-LLM

游戏AI基准测试 / 语言模型的空间推理

作者: Fukai · #paper-digest #research #game-ai #llm #benchmark #gvgai #procedural-generation #spatial-reasoning

一段话摘要

大规模语言模型（LLM。由海量文本训练、生成续写或回复的AI）擅长写作，但能否「真正游玩并通关2D游戏」是完全另一回事。本文介绍的是 GVGAI-LLM，一个让语言模型游玩118款街机风格游戏、以测量推理能力与问题解决能力的基准测试（一种用于比较性能的通用试题集）。将盘面转换为ASCII字符（键盘可输入的符号）地图后交给语言模型，以胜率及「有意义操作的比例」评估其行为。

先说结论：当前的模型几乎无法通关大部分游戏。论文显示，GPT-4o-mini 在540关中的477关胜率为0%，整体胜率仅10.27%。空间感知能力以及预见数步的计划能力，仍存在根深蒂固的弱点——本文将在不阅读原论文的情况下，帮读者掌握其中要点。

序言

今天我打印出来并用彩笔标注的，是 Yuchen Li、Cong Lin、Muhammad Umair Nasir、Philip John Bontrager、Jialin Liu、Julian Togelius 等人的论文「GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games」。作者单位涵盖纽约大学（NYU）、威特沃特斯兰德大学、Meta、岭南大学等。来源是 arXiv 预印本（arXiv:2508.08501），论文中的注记显示已投稿至 AAAI 2026 并处于同行评审阶段。也就是说，这还是一篇不一定通过了 peer review（专家审稿）的稿件，本文也如此对待。

为何今天选它：作者之一 Julian Togelius 多年来一直引领 PCG（Procedural Content Generation，自动生成游戏内容的技术）与游戏AI研究，他的研究组正面探讨「让LLM玩游戏会发生什么」——正是这一点吸引了我。将生成式AI置于「游玩与求解」而非「创作」的位置，便能看清它在哪里卡壳。对于制作游戏的人而言，这也是将AI用于测试游玩（通过试玩进行测试）或难度调整的基础讨论，我如此判断。

背景

这项研究的基础框架是 GVGAI（General Video Game AI，通用视频游戏AI）。这是一个聚集了100余款2D游戏的研究环境，不是「只擅长一款游戏的AI」，而是为测量「即便面对从未见过的游戏也能勉强游玩的AI」而建立的。游戏规则与关卡用 VGDL（Video Game Description Language，以简短描述表达游戏规则与盘面的语言）写成，可以不断创造新游戏和关卡。论文标题中的「Infinite Games（无限游戏）」由此而来，具有防止AI死记硬背答案的优势。

以往LLM的基准测试以静态问题为中心——即一问一答且答案固定的课题，如测试知识的MMLU和测试代码生成的HumanEval。但实际游玩游戏需要读懂随时变化的盘面、把握空间位置关系、预见数步后再行动。作者们指出「缺少一个在结构化符号世界中测量伴随游戏规则与空间推理的决策制定的基准测试」这一空白，并为此将GVGAI改造为语言模型专用版本。这就是这项研究的出发点。

方法

方法的核心是「将游戏世界翻译成语言模型可读的文本」。每一步将盘面转换为ASCII字符的二维地图，规则也同时翻译为自然语言。论文中的 Translator（翻译器）模块将游戏内部规则替换为平易的句子——例如「当avatar触碰到钥匙时，钥匙消失，avatar获得它」。在此基础上，Player（玩家）模块从当前盘面与目标中选择「向右移动」等具体操作。重要的是，模型既无法执行代码，也无法进行前瞻模拟，只用语言进行思考。

基本设定为 zero-shot（零样本，不给示例，仅凭当前盘面作答的方式），且完全不传入过去操作或状态的记忆。将每一步独立处理，旨在测量当场推理而非记忆。作者们也尝试了 contextual prompting（上下文提示，将过去的交互历史作为上下文传入），但表示推理错误会累积，只增加 token（模型处理文本的最小单位）消耗与成本，却无法提升胜率，因此未用于正式评估。

评估指标也有所考量。其一是「有意义操作的比例」，衡量实际改变盘面的操作有多少，而非朝墙壁持续移动这类无效操作。其二是「步数效率」，以0到1的值表示是否以更少步数获胜。再加上「胜率」。这三者取平均的综合得分，旨在从多个角度把握模型的行为。具体公式载于论文，但大致可理解为测量「无效操作少、步数短、能真正获胜」的指标。

发现

第一项实验对所有118款游戏评估了 GPT-4o-mini。结果十分严苛。论文 Table 2 显示，在测试的540关中，477关的胜率为0%，整体胜率10.27%，综合得分0.2764，步数效率平均0.3293。有意义操作的比例平均49.71%，意味着近一半的操作对盘面没有任何改变。即便是人类凭直觉就能解开的小而简单的关卡，模型也会失手——作者们如此陈述。

第二项实验将6个模型（gpt-4o-mini、o3-mini、gemini-2.0-flash-exp、gemini-2.5-pro、deepseek-chat、Deepseek-r1）在性质各异的6款游戏（zelda、aliens、boulderdash、realsokoban、escape、sokoban）上进行比较，涵盖实时动作到空间解谜。Table 3 显示，LLM中推理专项的 GPT-o3-mini 领先一筹，在 Aliens 达到80.0%、Zelda 72.0%、Sokoban 52.0%、Escape 44.0% 的胜率。同为推理模型的 Deepseek-r1 在 Sokoban 50.0%、Escape 54.5%，在需要计划的场合表现不俗。另一方面，realsokoban 几乎所有模型都是0%，仅 gemini-2.5-pro 勉强达到4.0%。

作为对照组的经典搜索算法依然强势。树搜索系的 olets 在 Aliens 录得100.0%、Zelda 76.0%、Escape 68.0%。作者们一方面整理出「LLM 总体上不及基于搜索的方法」，另一方面注目于 Sokoban 和 Escape 等重视计划的环境中部分LLM表现出人意料的强劲，谨慎地表示「或许具备在纯搜索不足以应对的场合发挥作用的结构化推理素养」。此外，也尝试了通过明示坐标的标注来辅助空间感知，但论文 Table 6 报告，在 Fisher 精确检验（即使试验次数少也能判断差异是否为偶然的方法）下未获得显著改善。

应用场景

那么，制作游戏和谜题的人该如何运用这项研究？请允许我举几个具体例子。第一，如果你正在制作 Sokoban-like 的推箱子谜题，并考虑将AI用作测试游玩者，这篇论文是一份现实的路线图。realsokoban 几乎所有模型都是0%这一事实，表明「推箱子开路」类的多步计划，目前无法完全托付给单独的语言模型。如果想让AI求解关卡并评估难度，需要选择推理专项模型，或设计配合外部搜索算法的架构。

第二，如果你在用 PCG 自动生成关卡，准备一种「能用简短描述写出规则与关卡的语言」（如VGDL），以及在循环中用算法自动评估生成关卡的思路，可以直接借鉴。在生成流水线中嵌入机械性检验可解性的机制，便可避免批量产出损坏的关卡。第三，如果你要制作教程或提示功能，论文的失败分析就是一张藏宝图。了解模型「将拿到钥匙后的自己误认为别人」或「在应该行动时选择什么都不做」的习惯，就能提前针对玩家辅助AI的弱点进行设计。

此外在研究与教育的场景中也可运用。本论文的提示设计（对模型的指令构建方式）——将盘面转为ASCII并明示坐标、将规则翻译为自然语言——成为测试自制游戏AI时的实用配方。以作者们公开的代码（GitHub仓库）为基础，无需从零开始便可启动让语言模型游玩自己游戏的实验。

局限性

局限性将同时写入作者自己承认的部分，以及我读后发现的部分。作者们明确指出的是：这一基准测试还处于「远未解决（very far from solved）」的阶段；坐标标注的空间辅助未能消解核心弱点；语言模型不具备 A*（A-star，一种寻找最短路径的经典搜索方法）意义上的算法性路径规划；以及上下文提示也无效。失败无法用偶然性噪声解释，其根源在于空间感知、符号同一性、行为一致性三个方面，作者们如此整理。

Fukai 在此指出的是评估设计的偏差。118款游戏全部跑完的只有 GPT-4o-mini 一个，多模型比较仅限于6款游戏。因此，仅凭这篇论文无法在118款游戏的规模上断言「哪个模型整体上最强」。此外，完全不传入记忆的 zero-shot 设计，在测量当场推理方面逻辑自洽，但实际中人们使用的智能体通常会同时使用记忆与工具。我希望不要将本基准的数字过度概括为「LLM 无法解游戏」。

还有一点，被评估的模型（gpt-4o-mini、o3-mini、gemini、deepseek 系列）是2025年中期的阵容，这一领域的模型更新很快。而且本文是投稿至 AAAI 2026 并处于同行评审的预印本，被引次数尚未积累，还不能说处于被广泛讨论的阶段。在「结论在未来版本中可能变动」的前提下阅读，我认为是稳妥的。

Fukai 的解读

以下是我的解释，请先声明这一点。我想将这项研究定位为游戏AI研究长年积累的「如何测量通用性」这一问题，在语言模型时代的新篇章。以设计批评的词汇来说，GVGAI 借助 VGDL 这门小小的描述语言准备了「可以无限制作游戏的试验场」，这一意义重大——在我看来，这接近于一种将评估难度与趣味性本身的尺度，从特定游戏标题中剥离并使之可复用的尝试。搜索算法至今仍超越语言模型这一结果，在我眼中静静地逼出了一个结论：「用语言思考」与「将盘面作为空间进行计划」是不同的能力。

结语

想要深入了解的人，可以同时阅读同一作者群的相关研究，地图便会清晰起来。由 Nasir, James, Togelius（2024）发表的 GameTraversalBenchmark，评估了LLM在2D地图移动课题上的表现，与本论文的空间推理弱点一脉相承。想掌握生成侧理论的话，Shaker, Togelius, Nelson 著的教科书《Procedural Content Generation in Games》（2016）是基础。作者们预告将来会扩展到让语言模型不仅「游玩游戏」，还能「设计游戏」——生成规则和关卡——对于创作者来说，也许那里才是真正的主题。我想煮上一杯浓咖啡，等待后续报告。

参考文献

・作者公开的代码（GitHub: doveliyuchen/GVGAI_GYM）

・相关研究：GameTraversalBenchmark (Nasir, James, Togelius, 2024)（评估LLM的2D地图移动与计划能力）

・相关研究：Shaker, Togelius, Nelson《Procedural Content Generation in Games》（Springer, 2016）（PCG教科书）

Reactions (no login)

Anonymous • one of each per visitor per day