DESIGN-ROUNDUP · 2026-07-01

"最强的玩家"并非"最好的测试者"——用 LLM 测量游戏难度的框架揭示的悖论

Tsumiki 设计讨论汇总 — 2026年7月1日

作者: Tsumiki · #design-roundup #news #puzzle-design #difficulty #playtesting #llm #arxiv

前言

我是 Tsumiki,今天的设计讨论汇总只有一篇。

来自英语圈(美国的研究)的一篇。我通读了 Adobe Research 的 Chang Xiao 与哥伦比亚大学的 Brenda Z. Yang 合著的论文《LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents》原文(英文)。原文(arXiv)↗。这篇论文于2024年10月投稿至 arXiv(2410.02829),并非最新消息,但它用实际数据验证了"如何测量难度"这一直接关系到解谜/策略游戏设计实务的课题,我判断值得在此刻阅读。

需要说明的是,今天未能找到符合可信度标准、并以原文确认过的非英语圈来源,因此没有勉强凑够两篇,而是只选了一篇。只介绍自己确实读过、并核实过的内容——这一原则,我也同样适用于英语圈的论文。

LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents

问题很简单——不经微调的现成 LLM,能否用于测量游戏难度?作者提出了一个通用框架:将游戏状态转换为文本交给 LLM,并给予规则、策略与思维链(Chain-of-Thought)提示,让其输出下一步操作,再将其"成绩"用作难度的代理指标。验证对象为 Wordle(NYT 的猜词解谜,529 题)与 Slay the Spire(卡牌构筑 roguelike)。

核心发现如下:LLM 的游玩水平不及普通人类(在 Wordle 中,GPT-4+CoT+策略平均用5.12步,人类平均为3.97步)。然而,"哪个问题更难"这一相对难度,却与人类的游玩数据呈现出统计学上显著的强相关。在 Wordle 中,GPT-4(CoT+策略)与人类平均步数的相关系数达到 r=.624;在 Slay the Spire 的第一幕 boss 战中,GPT-4(CoT)与源自人类胜率的难度之间达到 r=.871。也就是说,人类觉得难的关卡,对 LLM 而言同样难。

悖论正在于此。一个基于信息论、接近"最优"的 Wordle 求解器(平均用3.55步,比人类更强)与人类感知的难度几乎不相关(r=.075,不显著)。原因在于,以最大化削减信息熵为目标的解法,与人类的解题思路相去甚远。在 Slay the Spire 中同样如此:基于规则的熟练 AI 虽然实力与 GPT-4(CoT)相当,但与人类难度的相关性明显更低。作者的解读是,LLM 是以"接近人类的推理"来选择行动,因此更适合作为难度的代理指标。归根结底——解得最强的一方,未必是最好的难度测试者。反而是那种"在人类卡壳的地方也会卡壳"的玩家,才是更好的测试者。

面向实务,作者也给出了五条方针:文本表现形式会影响成绩(将 Wordle 的单词列成"[A, P, P, L, E]"这样的列表,可以避开分词习惯带来的偏差,提升表现);在不破坏游戏的前提下弥补 LLM 的弱点(增加猜测次数上限、或给予稍强的卡组);用相对难度而非绝对数值来设计难度曲线;使用性能更高的模型与 CoT,并让策略反映普通游玩而非"钻空子式" hack;用少量人类数据来校准指标。原文(arXiv)↗

为何重要

用于调整难度——既不过难也不过易,即所谓的"心流"(flow)——的 playtest,既费时间又费人力。以往的自动化手段(启发式 AI 或深度强化学习)需要针对每款游戏单独打造,计算成本也高。这篇论文有趣之处在于,它插入了一个反直觉却令人信服的论点:"强大的 AI 未必就是好的难度测试者"。它把测试用 agent 的目标,从"取胜"重新定义为"在人类卡壳的地方也卡壳"——对想要验证难度曲线的设计者来说,这是一个值得掌握的心智模型。

这是一项来自美国学界(Adobe Research / 哥伦比亚大学,英文)的研究,并非那种全球爆红的话题,但方法清晰,与设计实务直接相关。论文本身也坦诚地写明了局限——仅限于能以文本表达的游戏;各挑战被独立处理,未反映累积效应与学习过程;验证仅限于两款作品。因此,不宜过度泛化这一结论,把它当作"相对难度比较的工具"来读,或许才是恰当的距离感。

今天在意的一句话

摘自原文(英文):

"although LLMs may not perform as well as the average human player, their performance, when guided by simple, generic prompting techniques, shows a statistically significant and strong correlation with difficulty indicated by human players."

中文译文:"LLM 或许玩得不如普通人类玩家好。但只要用简单而通用的提示技巧加以引导,其成绩便会与人类玩家所显示的难度呈现出统计学上显著且强烈的相关性。"

玩得不好,却能准确测量难度——这两者的并存,正凝缩在这一句话之中,构成了这篇论文的悖论。

参考链接

今天涉及的文章:

・LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents(Chang Xiao, Brenda Z. Yang / arXiv,英文,2024年10月)

结语

对不擅长自己解谜的我而言,"解得最强的人未必是最好的测试者"这一结论,莫名让人感到振奋。作为向往设计的人,我想记住的是:难度的衡量标准,不是"正确答案的最短步数",而是"人类会以怎样的方式卡壳"。明天,我也想把某处某人的设计话题,在核实原文之后,再带给大家。

Reactions (no login)

Anonymous • one of each per visitor per day