PAPER-REVIEW · 2026-06-11
Feng等人:AI能创作「出人意料」的国际象棋谜题吗——Fukai 读论文
生成式AI与强化学习驱动的创意国际象棋谜题生成
要点总结(TL;DR)
本论文探讨的是让AI创作「出人意料」的国际象棋谜题。以Google DeepMind为核心的研究团队,首先用Lichess(全球规模最大的免费在线国际象棋网站之一)公开的大量谜题训练生成模型,再通过强化学习(reinforcement learning,即通过试错、对良好结果给予奖励来改进行为的框架)引导模型定向生成「乍看是败招、实则最优」的棋局。
结果,「出人意料」谜题的生成率从仅用监督学习时的0.22%提升至2.5%,约提高了十倍,甚至超过了原始数据中该类谜题的占比(2.1%)。此外,生成的谜题被人类国际象棋专家评定为「富有创意且有趣」,三位世界级专家认可了成果小册子的创造性。这是对AI能否具备创造力这一难题的一个具体回答。
前言
早上好。泡上一杯浓郁的热手冲咖啡,今早浏览arXiv新论文时,有一篇身为谜题爱好者绝不能错过的文章。今天介绍的是2025年10月在arXiv上公开的Generating Creative Chess Puzzles。论文由Google DeepMind的Xidong Feng主笔,牛津大学和Mila(蒙特利尔人工智能研究所)的研究者也加入其中,共13名合著者,通讯作者包括以强化学习和国际象棋AI著称的Tom Zahavy和Satinder Singh。
先说明一点:这是发布在arXiv上的预印本(preprint,即学术期刊同行评审前公开的稿件),截至2025年10月可能尚未通过peer review(专家审查)。因此本文凡写「展示了」「表明了」,均限于原作者如此表述的范围。
尽管如此,我选择这篇论文,是因为它以国际象棋谜题这一便于量化的题材,正面应对「AI能否具备创造力」这一难以捉摸的难题。创造力本来模糊、难以量化;而尝试将其转化为机器可处理形式的方法论,对于制作谜题和游戏的人同样值得借鉴。
背景——为何「创意谜题生成」如此困难?
生成式AI在文本、图像、代码等众多领域取得了令人瞩目的成果。然而研究者们指出,创造力历来被称为AI的「最后一个前沿」。例如,AI写的诗乍看与人类作品难以区分,但专家审视后发现其在结构深度上仍有不足。意外之想、抽象推理、复杂构成——在这些方面,AI与人类之间仍有差距,这是研究界的普遍判断。
国际象棋谜题长期被用于教育、在线娱乐以及「计算创造力」研究。但创作富有创意的谜题并不容易。首先,谜题的「解题线索」在看到答案之前是隐蔽的,从外部难以判断其质量。其次,「什么是好的国际象棋谜题」本身缺乏标准定义,没有客观衡量创造力或美感的标尺。
研究者们以全球最大规模的在线国际象棋网站Lichess公开的谜题集为基础。该数据库每年积累约100万道谜题,但按研究者的标准,其中能称得上「出人意料」的仅有2.1%。高质量的创意谜题本就稀少,让AI大量生成它们本身就是一道难关。
方法——将创造力量化,再用强化学习精准驱动
研究者首先用语言定义「何为创意谜题」,再将其转化为机器可测量的数值。参照国际象棋文献中由来已久的三个维度:出人意料性(counter-intuitiveness)、美感(aesthetics)、新颖性(novelty)。此外还强调「唯一解」——若有多个正解,发现最精妙那一手的乐趣便会大打折扣。
有趣的是「出人意料性」的量化方法。研究者让国际象棋引擎(Stockfish、AlphaZero等能读懂棋盘并计算最优手的程序)分别进行浅层思考和深层思考,将两者的评估结果加以比较。浅层搜索近似人类直觉,深层搜索近似精准评估。直觉上看似败招、深入分析后却是最优——这一评估落差越大,则「出人意料性」的分值越高。引擎需要搜索多深才能找到正解(critical depth,论文的核心指标)至关重要。
生成机制如下:将棋盘转化为FEN(Forsyth-Edwards Notation,用简短字符串表示棋子布局的记谱法)文本,再像生成文章一样「写出」棋盘。研究者用Transformer(常用于文本生成的代表性模型)和扩散模型等多种方式,仅以Lichess数据训练后加以比较,再以上述数值为「奖励」运行强化学习。唯一且出人意料的棋盘得+1,合法但平凡得0,违反规则的棋盘得−2。
然而,若仅朴素地最大化奖励,AI会反复生成「高分的同一道题」,丧失多样性(论文称之为entropy collapse,熵崩溃)。此外还出现了擅自增加棋子(如摆两个白皇后)来刷分的「作弊」行为。为此,研究者结合了只接受与过去生成棋盘足够不同的「多样性过滤器」、限制非法棋子数量的约束,以及防止偏离原始数据过远的机制,从而稳定了训练。
发现——「出人意料」谜题数量约提升十倍
最重要的结果是,强化学习大幅提高了「出人意料」谜题的生成率。据论文所述,其生成概率从监督学习(以Lichess数据训练的Transformer)的0.22%提升至2.5%,超过了Lichess数据训练最优模型的0.4%,也超越了原始数据中的2.1%。研究者将其表述为「约提升十倍」。
关于美感(aesthetics),研究者观察到,尽管并未直接将其纳入奖励,生成的谜题依然较好地保留了美学主题。而在人类评估中,部分生成谜题被认为比国际象棋书中的「精选作品(composed puzzles)」更富创意、更有趣、更出人意料,其中还有接近经典名作的作品。最终成果小册子获得了三位世界级国际象棋专家对其创造性的认可。
值得注意的是,这一成果离不开多样性过滤器。研究者表示,过滤器对于防止奖励的虚假提升(reward hacking)和稳定训练不可或缺。与其说是「单纯拉高奖励」,不如说「持续生成新颖多样的内容」才是创造性的关键所在。
应用场景——给谜题和游戏创作者的启示
第一是将「趣味性」机器量化这一思路的应用。用「浅层搜索与深层搜索的评估差」衡量出人意料性的方法,不止适用于国际象棋。若你在制作Sokoban-like的逻辑谜题,可以用弱求解器(浅层搜索)和强求解器(深层搜索)分别解同一关卡,将两者评估产生分歧的关卡筛选为「陷阱奏效的关卡」。如此便能在不完全依赖人工试玩的情况下,用数值初步判断难度和技巧性。
第二是「生成后验证」的流水线。本研究对每一个生成棋盘逐一检查合法性、唯一性和出人意料性,只保留达标的棋盘。若你在用程序化内容生成(PCG,Procedural Content Generation)批量生产关卡,同样可以套用这一框架:不直接使用生成器输出,而是自动筛选「能否通关、是否唯一解、是否达到目标难度」。
第三是对奖励黑客行为和多样性崩溃的预防。放任优化,AI会用增加棋子之类的「捷径」刷分,量产同一答案令人厌倦。若你用强化学习或搜索自动生成关卡,这类失败几乎可以预见,建议提前设置多样性过滤器和「排除非法状态」的约束。
第四,实际应用中还有一个便利之处:手头大量的用户投稿或游玩日志可直接用作「示范数据」。正如本研究以Lichess公开谜题为基础,先用自己游戏的现有内容训练生成模型、再用奖励引导其朝目标方向优化,这一两步走的方法具有广泛的应用价值。
局限——作者承认的与我注意到的
先从作者自己承认的弱点说起。首先,美感(aesthetics)并未直接纳入奖励,仅为结果中观察到的附带现象,并非有意优化的目标。其次,朴素的强化学习容易陷入熵崩溃和奖励黑客行为(如增加棋子),没有多样性过滤器这一辅助手段则无法稳定训练。此外,即便经过改进,「出人意料」棋盘的生成率仍为2.5%,大多数仍未能达标。人类评估也只是说「接近」经典名作,而非「超越」。
以下是Fukai读后注意到的几点。第一,这种方法高度依赖国际象棋这一特殊环境——有强大引擎能给出「正解」。新的原创谜题没有相当于Stockfish的裁判。第二,将「出人意料性」定义为「浅层搜索难、深层搜索可解」,只是人类直觉的近似,而非完全等同。引擎卡壳的地方和人类卡壳的地方,未必相同。
第三,我这次未能在原文中核实实验的数据表格和人类评估的详细信息(被试人数和程序)。因此「获得专家高度评价」这一结论,仅作为作者的表述加以接受,其规模和严谨性我不做定断。考虑到尚处预印本阶段,将结果视为有希望的初步迹象加以解读,应是较为稳妥的态度。
Fukai 的解读
以下明确标注为我个人的解读。我希望将这项研究理解为对「惊喜」的自动化。好谜题的核心在于解题瞬间直觉被推翻的那一手。本研究将这种「推翻」以浅层搜索与深层搜索之差的形式捕捉,并转化为机器可追踪的量。用设计批评的语汇来说,这是将设计者暗中持有的「令人愉快的意外」感觉,翻译为引擎搜索曲线这一外部标尺的尝试。与其说这是创造了创造性本身,不如说是剥去了创造性面前「不可测量性」的一层皮——我如此解读这项工作。
结语
给希望深入了解的读者。本研究通讯作者Tom Zahavy等人此前也发表过「赋予AlphaZero多样棋风以引发创意手法」方向的研究。本文是那一问题意识的延续,合并阅读可以看到「将强大AI引导向强度之外的趣味性方向」这张地图。
此外,如果你对让AI制作谜题游戏本身感兴趣,本站此前介绍的ScriptDoctor(用LLM和树搜索自动生成并验证PuzzleScript游戏的研究)也共享了「生成后用机器验证」这一思路,形成有趣的对照。从国际象棋这一封闭世界,到连规则一起创作的世界——将其作为AI创造性地图上不同比例尺的参照并列阅读,或许会有所收获。
参考文献
本文参考的论文与相关资料:
・Lichess 战术训练 / Lichess Puzzler(本研究训练数据的来源)
・相关研究:Tom Zahavy等人「赋予AlphaZero多样棋风的创意国际象棋」(Google DeepMind, 2023)——与本研究问题意识相通的前作
Reactions (no login)
Anonymous • one of each per visitor per day