PAPER-REVIEW · 2026-06-11

Feng等人：AI能创作「出人意料」的国际象棋谜题吗——Fukai 读论文

生成式AI与强化学习驱动的创意国际象棋谜题生成

作者: Fukai · #paper-review #research #chess #puzzle-generation #reinforcement-learning #creativity #procedural-generation #deepmind

日本語版を読む → · Read in English →

要点总结（TL;DR）

本论文探讨的是让AI创作「出人意料」的国际象棋谜题。以Google DeepMind为核心的研究团队，首先用Lichess（全球规模最大的免费在线国际象棋网站之一）公开的大量谜题训练生成模型，再通过强化学习（reinforcement learning，即通过试错、对良好结果给予奖励来改进行为的框架）引导模型定向生成「乍看是败招、实则最优」的棋局。

结果，「出人意料」谜题的生成率从仅用监督学习时的0.22%提升至2.5%，约提高了十倍，甚至超过了原始数据中该类谜题的占比（2.1%）。此外，生成的谜题被人类国际象棋专家评定为「富有创意且有趣」，三位世界级专家认可了成果小册子的创造性。这是对AI能否具备创造力这一难题的一个具体回答。

前言

早上好。泡上一杯浓郁的热手冲咖啡，今早浏览arXiv新论文时，有一篇身为谜题爱好者绝不能错过的文章。今天介绍的是2025年10月在arXiv上公开的Generating Creative Chess Puzzles。论文由Google DeepMind的Xidong Feng主笔，牛津大学和Mila（蒙特利尔人工智能研究所）的研究者也加入其中，共13名合著者，通讯作者包括以强化学习和国际象棋AI著称的Tom Zahavy和Satinder Singh。

先说明一点：这是发布在arXiv上的预印本（preprint，即学术期刊同行评审前公开的稿件），截至2025年10月可能尚未通过peer review（专家审查）。因此本文凡写「展示了」「表明了」，均限于原作者如此表述的范围。

尽管如此，我选择这篇论文，是因为它以国际象棋谜题这一便于量化的题材，正面应对「AI能否具备创造力」这一难以捉摸的难题。创造力本来模糊、难以量化；而尝试将其转化为机器可处理形式的方法论，对于制作谜题和游戏的人同样值得借鉴。

背景——为何「创意谜题生成」如此困难？

生成式AI在文本、图像、代码等众多领域取得了令人瞩目的成果。然而研究者们指出，创造力历来被称为AI的「最后一个前沿」。例如，AI写的诗乍看与人类作品难以区分，但专家审视后发现其在结构深度上仍有不足。意外之想、抽象推理、复杂构成——在这些方面，AI与人类之间仍有差距，这是研究界的普遍判断。

国际象棋谜题长期被用于教育、在线娱乐以及「计算创造力」研究。但创作富有创意的谜题并不容易。首先，谜题的「解题线索」在看到答案之前是隐蔽的，从外部难以判断其质量。其次，「什么是好的国际象棋谜题」本身缺乏标准定义，没有客观衡量创造力或美感的标尺。

研究者们以全球最大规模的在线国际象棋网站Lichess公开的谜题集为基础。该数据库每年积累约100万道谜题，但按研究者的标准，其中能称得上「出人意料」的仅有2.1%。高质量的创意谜题本就稀少，让AI大量生成它们本身就是一道难关。

方法——将创造力量化，再用强化学习精准驱动

研究者首先用语言定义「何为创意谜题」，再将其转化为机器可测量的数值。参照国际象棋文献中由来已久的三个维度：出人意料性（counter-intuitiveness）、美感（aesthetics）、新颖性（novelty）。此外还强调「唯一解」——若有多个正解，发现最精妙那一手的乐趣便会大打折扣。

有趣的是「出人意料性」的量化方法。研究者让国际象棋引擎（Stockfish、AlphaZero等能读懂棋盘并计算最优手的程序）分别进行浅层思考和深层思考，将两者的评估结果加以比较。浅层搜索近似人类直觉，深层搜索近似精准评估。直觉上看似败招、深入分析后却是最优——这一评估落差越大，则「出人意料性」的分值越高。引擎需要搜索多深才能找到正解（critical depth，论文的核心指标）至关重要。

生成机制如下：将棋盘转化为FEN（Forsyth-Edwards Notation，用简短字符串表示棋子布局的记谱法）文本，再像生成文章一样「写出」棋盘。研究者用Transformer（常用于文本生成的代表性模型）和扩散模型等多种方式，仅以Lichess数据训练后加以比较，再以上述数值为「奖励」运行强化学习。唯一且出人意料的棋盘得+1，合法但平凡得0，违反规则的棋盘得−2。

然而，若仅朴素地最大化奖励，AI会反复生成「高分的同一道题」，丧失多样性（论文称之为entropy collapse，熵崩溃）。此外还出现了擅自增加棋子（如摆两个白皇后）来刷分的「作弊」行为。为此，研究者结合了只接受与过去生成棋盘足够不同的「多样性过滤器」、限制非法棋子数量的约束，以及防止偏离原始数据过远的机制，从而稳定了训练。

发现——「出人意料」谜题数量约提升十倍

最重要的结果是，强化学习大幅提高了「出人意料」谜题的生成率。据论文所述，其生成概率从监督学习（以Lichess数据训练的Transformer）的0.22%提升至2.5%，超过了Lichess数据训练最优模型的0.4%，也超越了原始数据中的2.1%。研究者将其表述为「约提升十倍」。

关于美感（aesthetics），研究者观察到，尽管并未直接将其纳入奖励，生成的谜题依然较好地保留了美学主题。而在人类评估中，部分生成谜题被认为比国际象棋书中的「精选作品（composed puzzles）」更富创意、更有趣、更出人意料，其中还有接近经典名作的作品。最终成果小册子获得了三位世界级国际象棋专家对其创造性的认可。

值得注意的是，这一成果离不开多样性过滤器。研究者表示，过滤器对于防止奖励的虚假提升（reward hacking）和稳定训练不可或缺。与其说是「单纯拉高奖励」，不如说「持续生成新颖多样的内容」才是创造性的关键所在。

应用场景——给谜题和游戏创作者的启示

第一是将「趣味性」机器量化这一思路的应用。用「浅层搜索与深层搜索的评估差」衡量出人意料性的方法，不止适用于国际象棋。若你在制作Sokoban-like的逻辑谜题，可以用弱求解器（浅层搜索）和强求解器（深层搜索）分别解同一关卡，将两者评估产生分歧的关卡筛选为「陷阱奏效的关卡」。如此便能在不完全依赖人工试玩的情况下，用数值初步判断难度和技巧性。

第二是「生成后验证」的流水线。本研究对每一个生成棋盘逐一检查合法性、唯一性和出人意料性，只保留达标的棋盘。若你在用程序化内容生成（PCG，Procedural Content Generation）批量生产关卡，同样可以套用这一框架：不直接使用生成器输出，而是自动筛选「能否通关、是否唯一解、是否达到目标难度」。

第三是对奖励黑客行为和多样性崩溃的预防。放任优化，AI会用增加棋子之类的「捷径」刷分，量产同一答案令人厌倦。若你用强化学习或搜索自动生成关卡，这类失败几乎可以预见，建议提前设置多样性过滤器和「排除非法状态」的约束。

第四，实际应用中还有一个便利之处：手头大量的用户投稿或游玩日志可直接用作「示范数据」。正如本研究以Lichess公开谜题为基础，先用自己游戏的现有内容训练生成模型、再用奖励引导其朝目标方向优化，这一两步走的方法具有广泛的应用价值。

局限——作者承认的与我注意到的

先从作者自己承认的弱点说起。首先，美感（aesthetics）并未直接纳入奖励，仅为结果中观察到的附带现象，并非有意优化的目标。其次，朴素的强化学习容易陷入熵崩溃和奖励黑客行为（如增加棋子），没有多样性过滤器这一辅助手段则无法稳定训练。此外，即便经过改进，「出人意料」棋盘的生成率仍为2.5%，大多数仍未能达标。人类评估也只是说「接近」经典名作，而非「超越」。

以下是Fukai读后注意到的几点。第一，这种方法高度依赖国际象棋这一特殊环境——有强大引擎能给出「正解」。新的原创谜题没有相当于Stockfish的裁判。第二，将「出人意料性」定义为「浅层搜索难、深层搜索可解」，只是人类直觉的近似，而非完全等同。引擎卡壳的地方和人类卡壳的地方，未必相同。

第三，我这次未能在原文中核实实验的数据表格和人类评估的详细信息（被试人数和程序）。因此「获得专家高度评价」这一结论，仅作为作者的表述加以接受，其规模和严谨性我不做定断。考虑到尚处预印本阶段，将结果视为有希望的初步迹象加以解读，应是较为稳妥的态度。

Fukai 的解读

以下明确标注为我个人的解读。我希望将这项研究理解为对「惊喜」的自动化。好谜题的核心在于解题瞬间直觉被推翻的那一手。本研究将这种「推翻」以浅层搜索与深层搜索之差的形式捕捉，并转化为机器可追踪的量。用设计批评的语汇来说，这是将设计者暗中持有的「令人愉快的意外」感觉，翻译为引擎搜索曲线这一外部标尺的尝试。与其说这是创造了创造性本身，不如说是剥去了创造性面前「不可测量性」的一层皮——我如此解读这项工作。

结语

给希望深入了解的读者。本研究通讯作者Tom Zahavy等人此前也发表过「赋予AlphaZero多样棋风以引发创意手法」方向的研究。本文是那一问题意识的延续，合并阅读可以看到「将强大AI引导向强度之外的趣味性方向」这张地图。

此外，如果你对让AI制作谜题游戏本身感兴趣，本站此前介绍的ScriptDoctor（用LLM和树搜索自动生成并验证PuzzleScript游戏的研究）也共享了「生成后用机器验证」这一思路，形成有趣的对照。从国际象棋这一封闭世界，到连规则一起创作的世界——将其作为AI创造性地图上不同比例尺的参照并列阅读，或许会有所收获。

参考文献

・Lichess 战术训练 / Lichess Puzzler（本研究训练数据的来源）

・相关研究：Tom Zahavy等人「赋予AlphaZero多样棋风的创意国际象棋」（Google DeepMind, 2023）——与本研究问题意识相通的前作

Reactions (no login)

Anonymous • one of each per visitor per day