PAPER-REVIEW · 2026-06-11

Feng et al. : L'IA peut-elle composer des puzzles d'échecs contre-intuitifs ? — Fukai lit

Génération créative de puzzles d'échecs par IA générative et apprentissage par renforcement

Critique par Fukai · #paper-review #research #chess #puzzle-generation #reinforcement-learning #creativity #procedural-generation #deepmind

Lire en japonais →

Points essentiels (TL;DR)

Cet article relève le défi de faire composer à une IA des puzzles d'échecs « contre-intuitifs ». Une équipe centrée sur Google DeepMind commence par entraîner un modèle génératif sur la vaste collection de puzzles publiée par Lichess (l'un des plus grands sites d'échecs en ligne gratuits du monde), puis utilise l'apprentissage par renforcement (RL) pour orienter la sortie vers des positions où « le meilleur coup semble mauvais à première vue ».

Résultat : le taux de génération de tels puzzles contre-intuitifs est passé de 0,22 % avec la seule supervision à 2,5 % — environ dix fois plus, dépassant même la proportion de ce type dans les données d'origine (2,1 %). De plus, les puzzles générés ont été jugés « créatifs et intéressants » par des experts humains, et trois experts mondiaux ont reconnu la créativité d'un livret de résultats. C'est une réponse concrète à la difficile question de savoir si l'IA peut être créative.

Introduction

Bonjour. Café filtre serré et chaud en main, je parcourais ce matin les nouvelles soumissions sur arXiv quand je suis tombé sur un article qu'aucun amateur de puzzles ne pouvait ignorer. Je présente aujourd'hui Generating Creative Chess Puzzles, publié sur arXiv en octobre 2025. La recherche est co-signée par Xidong Feng de Google DeepMind et douze autres chercheurs d'Oxford et de Mila (l'institut de recherche en IA de Montréal), avec Tom Zahavy et Satinder Singh — tous deux connus pour leurs travaux en RL et IA des échecs — comme auteurs correspondants.

Précision nécessaire : il s'agit d'un preprint soumis à arXiv, c'est-à-dire un manuscrit rendu public avant la révision par les pairs, qui n'avait peut-être pas encore passé le peer review en octobre 2025. J'utiliserai donc « ils montrent » ou « ils trouvent » uniquement dans les limites de ce que les auteurs eux-mêmes écrivent.

Je l'ai choisi malgré cela parce qu'il s'attaque de front à la question insaisissable de savoir si l'IA peut être créative, avec les puzzles d'échecs comme terrain mesurable. La créativité est floue et difficile à quantifier ; la démarche qui consiste à la réduire à une forme traitable par machine est instructive pour quiconque conçoit des puzzles ou des jeux.

Contexte — Pourquoi la génération de puzzles créatifs est-elle difficile ?

L'IA générative a produit des résultats remarquables dans le texte, les images, le code et bien d'autres domaines. Mais les auteurs partent du contexte de recherche selon lequel la créativité est depuis longtemps qualifiée de « dernière frontière » de l'IA. La poésie produite par l'IA peut paraître indiscernable de celle des humains à première vue, mais les experts y décèlent un manque de profondeur structurelle. Idées inattendues, raisonnement abstrait, construction complexe — sur ces points, l'IA est encore en retrait, telle est la position du domaine.

Les puzzles d'échecs sont depuis longtemps utilisés dans l'éducation, le divertissement en ligne et la recherche sur la créativité computationnelle. Mais créer des puzzles créatifs est difficile. D'abord, le « fil conducteur » d'un puzzle reste caché jusqu'à ce qu'on voie la solution : difficile de juger de sa qualité de l'extérieur. Ensuite, il n'existe aucune définition standard de ce qu'est un bon puzzle d'échecs — pas de mètre étalon pour mesurer objectivement la créativité ou la beauté.

Les auteurs s'appuient sur la collection de puzzles publiée par Lichess, l'un des plus grands sites d'échecs en ligne du monde. La base accumule environ un million de puzzles par an, mais selon les critères des auteurs, seuls 2,1 % d'entre eux peuvent être qualifiés de « contre-intuitifs ». Les puzzles créatifs de qualité sont rares à l'origine, et faire en sorte qu'une IA en produise en grande quantité constitue en soi un obstacle majeur.

Approche — Transformer la créativité en chiffres, puis la cibler avec le RL

Les auteurs commencent par définir en mots ce qui fait un puzzle créatif, puis réduisent cela à des chiffres mesurables par une machine. Trois dimensions issues de la littérature sur les échecs : la contre-intuitivité (counter-intuitiveness), la beauté (aesthetics) et la nouveauté (novelty). Ils insistent aussi sur l'unicité de la solution : plusieurs réponses correctes dilueraient le plaisir de trouver le coup le plus précis.

La partie ingénieuse est la manière de mesurer la contre-intuitivité. Un moteur d'échecs (Stockfish, AlphaZero — des programmes qui lisent la position et calculent le meilleur coup) est mis à réfléchir superficiellement puis profondément ; les deux évaluations sont comparées. La recherche superficielle approxime l'intuition humaine, la recherche profonde l'évaluation précise. Plus l'écart est grand entre un coup qui semble mauvais superficiellement et optimal en profondeur, plus le score de contre-intuitivité est élevé. La profondeur critique (critical depth, l'indicateur central du papier) — combien le moteur doit descendre pour trouver la solution — joue un rôle clé.

La génération fonctionne ainsi : on convertit une position en FEN (Forsyth-Edwards Notation, une notation compacte représentant la disposition des pièces en chaîne courte), puis on « écrit » la position comme on génère du texte. Les auteurs entraînent et comparent plusieurs architectures — Transformer, modèle de diffusion — sur les seules données Lichess, puis lancent l'apprentissage par renforcement avec les chiffres ci-dessus comme récompenses. Position unique et contre-intuitive : +1 ; légale mais banale : 0 ; illégale : −2.

Mais si l'on maximise naïvement la récompense, l'IA génère indéfiniment le même puzzle à haute récompense et perd en diversité — ce que les auteurs appellent l'entropy collapse. Des « triches » sont également apparues, comme ajouter des pièces (deux reines blanches) pour gonfler les scores. Les auteurs combinent un filtre de diversité n'acceptant que les positions suffisamment différentes des précédentes, des contraintes sur les nombres de pièces illégaux et un mécanisme empêchant de trop s'écarter des données d'origine pour stabiliser l'entraînement.

Résultats — Dix fois plus de puzzles contre-intuitifs

Le résultat principal est que l'apprentissage par renforcement a fortement augmenté la génération de puzzles contre-intuitifs. Selon le papier, la probabilité de génération est passée de 0,22 % avec la supervision (Transformer entraîné sur les données Lichess) à 2,5 % — dépassant le 0,4 % du meilleur modèle entraîné sur Lichess et même les 2,1 % présents dans les données d'origine. Les auteurs parlent d'une amélioration « d'environ dix fois ».

Pour la beauté (aesthetics), les auteurs observent que les puzzles générés conservent bien les thèmes esthétiques, même si la beauté n'était pas directement intégrée à la récompense. Dans l'évaluation humaine, certains puzzles générés ont été jugés plus créatifs, plus amusants et plus contre-intuitifs que des « puzzles composés » tirés de livres d'échecs, certains approchant des chefs-d'œuvre classiques. Le livret final a reçu la reconnaissance en créativité de trois experts mondiaux aux échecs.

Ce résultat ne tient pas sans le filtre de diversité. Les auteurs déclarent que ce filtre était indispensable pour prévenir le reward hacking et stabiliser l'entraînement. Plutôt que de simplement « augmenter la récompense », ce qui a compté c'est de « continuer à générer des choses nouvelles et variées ».

Pour qui ? — Conseils aux créateurs de puzzles et de jeux

Premier point : l'idée de mesurer l'intérêt par machine. Évaluer la contre-intuitivité par l'écart entre recherche superficielle et recherche profonde est applicable hors des échecs. Si vous créez un puzzle logique de type Sokoban-like, vous pouvez soumettre le même niveau à un solveur faible (recherche peu profonde) et à un solveur fort (recherche profonde), et retenir les niveaux où les évaluations divergent comme « niveaux où le piège fonctionne ». Cela permet d'obtenir une première estimation chiffrée de la difficulté et du caractère retors sans dépendre entièrement des tests humains.

Deuxième point : le pipeline générer-puis-vérifier. Cette recherche inspecte chaque position générée pour sa légalité, son unicité et sa contre-intuitivité, en ne gardant que celles qui passent. Si vous générez des niveaux de jeux casual en masse par PCG (Procedural Content Generation), vous pouvez appliquer la même structure : ne pas utiliser directement la sortie du générateur, mais la filtrer automatiquement selon « solvable, solution unique, difficulté ciblée ».

Troisième point : se prémunir contre le reward hacking et l'effondrement de la diversité (annuler (undo) une fois ne suffit pas — tôt ou tard l'IA trouve le raccourci). Si vous générez des niveaux automatiquement par RL ou recherche, ces échecs sont presque certains d'arriver ; prévoyez à l'avance un filtre de diversité et des contraintes éliminant les états illégaux.

Quatrième point pratique : vos soumissions d'utilisateurs ou journaux de jeu existants peuvent servir directement de « données de référence ». Comme cette étude s'appuie sur les puzzles publics Lichess, entraîner d'abord un modèle génératif sur le contenu existant de votre jeu puis l'orienter avec des récompenses est une approche en deux temps largement réutilisable.

Limites — Ce que les auteurs reconnaissent, et ce que j'ai remarqué

Commençons par les faiblesses que les auteurs reconnaissent eux-mêmes. D'abord, la beauté (aesthetics) n'était pas directement intégrée à la récompense ; elle a simplement été conservée et observée dans les résultats — pas optimisée délibérément. Ensuite, le RL naïf est vulnérable à l'effondrement de l'entropie et au reward hacking (ajouter des pièces), et ne se stabilise pas sans l'aide du filtre de diversité. Enfin, même après amélioration, le taux de génération de positions contre-intuitives reste à 2,5 % — la grande majorité ne satisfait toujours pas les critères. L'évaluation humaine dit aussi « proche » des chefs-d'œuvre classiques, pas « supérieure ».

Voici les points que moi, Fukai, ai remarqués à la lecture. Premièrement, cette méthode dépend fortement des échecs, environnement exceptionnellement favorable où un moteur puissant fournit la « bonne réponse ». Les puzzles originaux inédits n'ont pas d'arbitre équivalent à Stockfish. Deuxièmement, définir la contre-intuitivité comme « difficile pour la recherche peu profonde mais soluble en profondeur » n'est qu'une approximation de l'intuition humaine, pas son équivalent exact. L'endroit où un moteur bute et l'endroit où un humain bute ne sont pas nécessairement les mêmes.

Troisièmement, je n'ai pas pu vérifier dans le texte original les tableaux numériques des expériences ni les détails de l'évaluation humaine (nombre de sujets, procédures). La conclusion « jugé très positivement par des experts » est donc acceptée comme déclaration des auteurs ; je ne me prononcerai pas sur son échelle ni sa rigueur. Compte tenu du stade preprint, lire les résultats comme un signe prometteur semble la position la plus raisonnable.

La lecture de Fukai

J'écris explicitement à partir d'ici comme mon interprétation personnelle. Je veux lire cette recherche comme une automatisation de la « surprise ». Au cœur d'un bon puzzle se trouve le coup qui, au moment de la résolution, renverse l'intuition. Cette étude capture ce « renversement » sous la forme d'un écart entre recherche peu profonde et profonde, et le convertit en quantité traçable par une machine. Dans le vocabulaire de la critique de conception, c'est une tentative de traduire le sentiment — que le concepteur possède implicitement — de la « trahison agréable » en une courbe de recherche de moteur, mètre étalon externe. Plus qu'avoir créé la créativité elle-même, j'y lis un travail qui a pelé une couche de l'« immesurabilité » qui se tient devant la créativité.

Pour aller plus loin

Pour ceux qui veulent approfondir : Tom Zahavy et ses co-auteurs ont précédemment publié des recherches dans la direction de « faire émerger des coups créatifs en dotant AlphaZero de styles de jeu diversifiés ». Cet article est dans le prolongement de cette préoccupation ; les lire ensemble dessine la carte d'un projet consistant à « orienter une IA puissante vers l'intérêt plutôt que vers la force brute ».

Et si vous vous intéressez à faire créer des jeux de puzzle eux-mêmes par l'IA, ScriptDoctor — présenté sur ce site — qui génère et vérifie automatiquement des jeux PuzzleScript à l'aide de LLM et de la recherche arborescente, partage également l'idée de « générer puis vérifier par machine » et forme un beau contraste. Du monde fermé des échecs au monde où l'on crée aussi les règles — regardez-les comme deux échelles différentes de la carte de la créativité de l'IA.

Références

Articles et ressources connexes référencés dans cet article :

・Generating Creative Chess Puzzles (Xidong Feng et al., 2025, arXiv preprint 2510.23881, Google DeepMind et al.)

・Entraînement tactique Lichess / Lichess Puzzler (source des données d'entraînement de cette étude)

・Recherche connexe : Tom Zahavy et al., « échecs créatifs via des styles diversifiés dans AlphaZero » (Google DeepMind, 2023) — précédent travail partageant la même préoccupation que cette étude

Reactions (no login)

Anonymous • one of each per visitor per day

次に読む

おすすめエッセイ · 2026-06-11

物語のあるパズル、ないパズル — Lorelei と Stephen's Sausage Roll の対比

Stephen's Sausage Roll の純粋な手筋と、Lorelei and the Laser Eyes の物語と一体化した解法。物語のあるパズルとないパズルがそれぞれ何を売っているのかを、Obra Dinn、Golden Idol、COCOON、Machinarium を並べて設計者視点で対比する。