论文解读 · 2026-06-24
Zeytuncu:谜题的难度由「使用数字的个数」决定——Fukai 导读
谜题难度 / 结构性难度建模与自适应学习
一段式摘要
「Numbers 类」谜题——给定若干正整数和一个目标数,仅用加减乘除构成目标(英国电视节目 Countdown 的数字环节和法国节目《Le compte est bon》是其代表)。本论文试图从谜题本身的结构而非玩家游玩数据出发,解释此类谜题的"难"从何而来。作者编写了一个用动态规划精确求解四则运算能否到达目标数的专用求解器,生成约 347 万道题,并将难度定义为「最小步数(到达目标所需的最少运算次数)」。
核心发现清晰明了:仅凭最小解中实际使用的输入数个数(即手头的数中用了几个)这一个结构量,就能完美决定该定义下的难度。表面统计特征(数的大小、目标值)所训练的机器学习模型无法捕捉「容易的题」,而一旦加入「使用数字的个数」,分类便达到完美。作者将其称为「该定义下难度的最小充分统计量(足以预测、不可再精简的线索)」。本文旨在让读者无需打开论文便能掌握其要点。
简介
作者 Yunus E. Zeytuncu(密歇根大学迪尔伯恩分校)。本论文以预印本形式发布于 arXiv(2026 年 3 月投稿),论文正文明确标注已被教育领域 AI 国际会议 AIED 2026(Artificial Intelligence in Education)录用,即已通过同行评审。需说明的是,本文参考的是 arXiv 预印本版本。
为何选择这篇论文?我每天早晨浏览 arXiv 新论文,「测量难度」这一话题对谜题制作者而言是永恒主题,但通常都是从玩家通关率或流失率等「结果数据」事后推断。而这篇论文反其道而行之,试图从题目本身的内容出发解释难度——且研究对象是人人都接触过的「给定数字构成目标数」谜题。感觉切实可行、马上能用,所以选中了它。
背景
自适应学习系统(根据学习者熟练度调整题目的机制)的关键在于如何确定题目难度。太简单则学习效果差,太难则打击积极性。这与谜题游戏的难度设计面临的困境完全相同:如何事先估计恰到好处的挑战感?
然而,以往的许多方法都将难度视为「从正答率、解答时间等成绩数据中推断出的标签」。也就是说,必须有大量玩家游玩之后才能得知难度,而且「为何这道题难」始终无从解释。作者追问的是:能否在查看成绩之前,直接从题目结构中定义难度?若能做到,对新题目也可在无人游玩前预判难度。
方法
作者将谜题命名为「4OPS」(four operations,即四则运算)。给定若干正整数和一个目标数,仅用加减乘除判断能否构成目标。限制条件:只允许整数;每个数只能用一次;中间结果必须始终为正整数,减法不得出负数,除法只在整除时才允许;手头的数不必全部用完(可只用一部分)。作者表示,允许只用部分数这一设定,使得能提取更细粒度的结构差异。
首先,作者编写了一个精确求解器,用动态规划(记忆已解过的子问题答案并组合求解整体的方法)判断能否到达目标,并记录可达的值及其「最小步数」。此外还原了「以最少步数构成目标的算式」的具体内容——即哪些数被实际使用,即「证据(witness,最小解的构成本身)」。这是后续发现的关键。
接着构建数据集:手头六个数,分别是五个 1–9 的一位数(可重复)和 25、50、75 中的一个,构成与 Countdown 数字环节几乎相同的配置。去重后共有 3,861 种组合,目标为 100–999 的全部三位数,交叉后共 3,474,900 道题。每道题由求解器标注精确标签(能否求解 / 最小步数 / 结构特征)。难度按最小步数划分为四级:易(0–2 步)、中(3–4 步)、难(5 步)和无解。
发现
先看全貌:约 87% 的题可解。难度分布不均,易题(0–2 步)相对稀少,中(3–4 步)和难(5 步)占多数。以少量步数到达目标的组合其实并不多见。
若仅使用表面特征(由手头数和目标值生成的统计量)训练机器学习模型,预测能否求解时,逻辑回归(简单线性分类方法)可达约 90% 精度。而难度分类要难得多,梯度提升(逐步叠加弱预测器的方法)也只能达到约 73%,且几乎完全遗漏了「容易的题」。作者指出,容易性无法从表面统计中捕捉,依赖于解的构成细节。
于是从最小解的「证据」中提取结构特征:使用数字的个数、使用运算的种类、中间数的大小、最小解有多少种等。加入这些特征后,难度分类大幅改善,作者报告对求解器定义的难度标签达到了完美精度。
最终结论:通过消融分析(逐一移除各设计要素以确认效果的实验),仅加入最小解中使用数字的个数(作者称为 minimal input usage),就能完美预测所有难度类别,增加其他特征也不再提升效果。作者将其称为「该定义下难度的最小充分统计量」。从结构上说,容易的题用少数数字即可求解,难的题则需要几乎所有数字共同组合。
应用场景
对谜题制作者而言,第一个用途是自动标注难度标签。如果我在大量生成 Numbers 类谜题(给定数字构成目标数的形式),只需对每道生成题运行一次求解器,记录「最小解用了几个数字」。仅凭这一点,在玩家游玩之前就能贴上易 / 中 / 难的标签,无需等待通关率数据积累。
第二个用途是难度的「排列方式」。作者指出,按使用数字个数递增顺序排列题目,可形成可解释且逻辑自洽的难度递进。这可直接用作从教程到正式关卡的过渡设计,或按曜日逐渐加深每日谜题难度——「为何是这个顺序」,制作者自己能说清楚,这一点很有价值。
第三个用途是生成端的控制。如果我在超休闲谜题中运行 PCG(程序化内容生成),可以定向生成「2 个数字即可求解的题」作为简单关卡,或生成「5 个数字全部需要的题」作为有挑战性的关卡——不是事后测量难度,而是从一开始就按目标生成。
此外,我认为应用范围不限于 Numbers 类。「最小解需要同时组合多少要素」这一思路,可转化为推箱子类谜题中「正确步骤需要多少个独立的顿悟」,或布线 / 路径谜题中「解法需要同时成立多少条路径」等结构量。衡量难度的视角从步数长短转换为需要同时协调的要素数量。
局限性
首先是作者自己承认的局限。本次难度基于「求解器定义的最小步数」,与人类实际感受到的难度是否一致是留待未来研究的课题,作者明确指出这一点。使用数字的个数捕捉了结构上的必要量,但计算流畅度、策略熟练度、当下状态等影响人类成绩的因素并不在解释范围之内。结果也明确限于整数四则运算谜题这一框架。
Fukai 在此指出的是「完美精度」「最小充分统计量」这两个有力措辞的解读方式。难度由最小步数定义,使用数字的个数也是从同一最小解(witness)中提取的量。两者本质上是同一结构的不同侧面,从一方几乎能完全预测另一方,某种程度上是定义上的必然。这不是缺陷,但准确的理解是:这不是「预言了人类感受的难度」,而是「求解器上的难度定义可以归结为唯一一个结构量」。
还有一点:被引用次数目前几乎为零,这是一篇新发布的预印本,尚未得到广泛讨论。数据集和代码的公开情况仅凭论文正文无法详细确认(作者表示已将基础谜题以免费移动应用形式公开)。包括仅限于 Numbers 类这一特定形式,推广到其他谜题时,需要用自己的题材重新验证。
Fukai 的解读
以下是我的个人解读。我想将这项研究定位为从「从结果测量难度」时代迈向「从结构设计难度」时代的一小步,但富有象征意义。用设计批评的语汇来说,这是将关卡设计中「难度」的讨论从游玩测试统计拉回到解法结构本身的尝试。我们长期以来用「玩家卡了多久」来衡量难度,而这篇论文证明——至少对某类谜题而言——难度可以还原为「需要在脑中同时运转多少个要素」这一认知负荷(必须同时持有并操作的信息量)。这是我的解读,但我将其理解为一座潜在的桥梁:连接「工作记忆(短时持有信息并进行操作的记忆功能)负荷」这一古老心理学概念,并从谜题结构侧对其进行量化。
结语
想深入了解的读者,可参考从「玩家数据」推断难度的正统方法——处理移动谜题难度建模的实证研究(Difficulty Modelling in Mobile Puzzle Games, 2024)——它呈现了一张互补的地图。本论文从「结构」出发,那篇从「结果」出发。两者并排,便能看到从两个方向夹击「难度」这一难以捉摸对象的格局。
此外,如果对解的最小步数这一思路感兴趣,可以参阅处理四则运算表达式计算复杂性的理论性论文(括号有无如何改变可达数,2021 年),作为本论文所依托的理论基础,值得一读。本论文偏重「实现与教育应用」,结合理论侧的地图能获得立体视角。
参考文献
本文参照的论文及相关资料:
・相关研究:Difficulty Modelling in Mobile Puzzle Games (2024, arXiv:2401.17436)
Reactions (no login)
Anonymous • one of each per visitor per day