RÉSUMÉ DE RECHERCHE · 2026-06-16
Li et al. : Les LLM peuvent-ils « jouer et gagner » à des jeux 2D ? — Fukai lit GVGAI-LLM
Benchmark de jeu IA / raisonnement spatial des modèles de langage
Résumé en un paragraphe
Les grands modèles de langage (LLM — des IA entraînées sur d'immenses corpus de texte pour générer des suites ou des réponses) sont doués pour écrire, mais savoir s'ils peuvent « vraiment jouer et gagner » à un jeu 2D est une tout autre affaire. Cet article présente GVGAI-LLM, un benchmark (un ensemble de problèmes de test communs pour comparer les performances) qui fait jouer des modèles de langage à 118 jeux de style arcade pour mesurer leur raisonnement et leur capacité à résoudre des problèmes. Chaque grille est convertie en carte de caractères ASCII (des symboles que l'on peut taper au clavier) et remise au modèle, et le comportement est noté d'après le taux de victoire et le ratio de « coups utiles ».
Résultat en tête : les modèles actuels ne passent presque aucun jeu. Selon le papier, GPT-4o-mini a obtenu un taux de victoire de 0 % sur 477 des 540 niveaux testés, et son taux de victoire global n'était que de 10,27 %. Des faiblesses profondes persistent dans la saisie de l'espace et dans la planification à plusieurs coups. Je vais en dépaqueter le contenu pour que les points clés soient clairs sans ouvrir le papier.
Introduction
Ce que j'ai imprimé et annoté aujourd'hui est « GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games » de Yuchen Li, Cong Lin, Muhammad Umair Nasir, Philip John Bontrager, Jialin Liu et Julian Togelius. Les affiliations s'étendent sur l'Université de New York (NYU), l'Université du Witwatersrand, Meta et l'Université de Lingnan. La source est un preprint arXiv (arXiv:2508.08501) ; une note dans le papier indique qu'il est en cours d'évaluation à l'AAAI 2026. En d'autres termes, c'est un manuscrit qui n'a pas nécessairement encore passé le peer review (l'examen par des experts), et je le traite comme tel ici.
Pourquoi je l'ai choisi aujourd'hui : l'un des auteurs, Julian Togelius, a dirigé des recherches en PCG (Procedural Content Generation, technologie qui génère automatiquement du contenu de jeu) et en IA de jeu depuis des années, et j'ai été attiré par son groupe qui s'attaque frontalement à la question de ce qui se passe quand on fait jouer un LLM. Placer l'IA générative du côté « jouer et résoudre » plutôt que du côté « construire » révèle là où elle trébuche. J'ai estimé que c'est un sujet fondamental pour tous ceux qui créent des jeux et souhaitent utiliser l'IA pour le playtesting ou le réglage de la difficulté.
Contexte
La fondation de ce travail est un cadre appelé GVGAI (General Video Game AI). Il s'agit d'un environnement de recherche réunissant plus d'une centaine de jeux 2D, conçu pour mesurer non pas « une IA bonne dans un seul jeu » mais « une IA capable de jouer raisonnablement à un jeu qu'elle n'a jamais vu ». Les règles et niveaux des jeux sont écrits en VGDL (Video Game Description Language, un langage qui exprime les règles et la grille d'un jeu dans une notation compacte), ce qui permet de produire de nouveaux jeux et niveaux indéfiniment. Le « Infinite Games » du titre vient de là, avec l'avantage d'empêcher l'IA de simplement mémoriser les réponses.
Les précédents benchmarks de LLM se concentraient sur des tâches statiques à réponses fixes — comme MMLU pour les connaissances ou HumanEval pour la génération de code. Mais jouer à un jeu vraiment nécessite de lire un plateau qui change constamment, de saisir les relations spatiales et d'agir avec plusieurs coups d'anticipation. Les auteurs pointent un vide — l'absence d'un benchmark mesurant la prise de décision avec des règles de type jeu et un raisonnement spatial dans un monde symbolique structuré — et ont reconfiguré GVGAI pour les modèles de langage afin de le combler. C'est le point de départ de cette étude.
Approche
Le cœur de la méthode consiste à « traduire le monde du jeu en texte lisible par le modèle de langage ». À chaque étape, la grille est rendue sous forme de carte ASCII bidimensionnelle, et les règles sont également traduites en langage naturel. Le module Translator du papier réécrit les règles internes du jeu en phrases simples — par exemple, « Si l'avatar touche une clé, la clé disparaît et l'avatar l'obtient ». Ensuite, le module Player choisit un coup concret comme « aller à droite » à partir de la grille actuelle et de l'objectif. Ce qui est crucial : le modèle ne dispose ni d'exécution de code ni de simulation en avant ; il doit raisonner avec des mots seuls.
La configuration de base est le zero-shot (répondre uniquement à partir de la grille actuelle, sans exemples travaillés), et elle ne passe aucune mémoire des coups ou états passés. Traiter chaque étape de manière indépendante vise à mesurer le raisonnement sur le vif plutôt que la mémorisation. Les auteurs ont également essayé le contextual prompting (instructions qui incluent un historique des échanges précédents), mais disent ne pas l'avoir adopté pour l'évaluation principale car les erreurs de raisonnement se cumulaient et cela augmentait seulement l'utilisation de tokens (la plus petite unité de traitement du texte par un modèle) et le coût sans améliorer le taux de victoire.
Les mesures d'évaluation sont aussi réfléchies. L'une est le « ratio de coups utiles », qui regarde combien de coups ont réellement changé le plateau, par opposition aux coups gaspillés comme se cogner dans un mur. Une autre est « l'efficacité en coups », exprimant sur une échelle de 0 à 1 si la victoire est venue en moins de coups. Et enfin le taux de victoire. Un score global faisant la moyenne de ces trois éléments vise à capturer le comportement sous plusieurs angles. Les équations figurent dans le papier, mais en substance vous pouvez les lire comme mesurant si l'agent gaspille peu de coups, finit vite et gagne vraiment.
Résultats
Dans la première expérience, GPT-4o-mini a été évalué sur les 118 jeux. Les résultats sont sévères. D'après le Tableau 2, sur 540 niveaux testés, le taux de victoire était de 0 % sur 477, le taux de victoire global était de 10,27 %, le score global de 0,2764 et l'efficacité en coups de 0,3293 en moyenne. Le ratio de coups utiles s'établissait en moyenne à 49,71 %, ce qui signifie que près de la moitié des coups ne changeaient rien sur le plateau. Même sur de petits niveaux simples qu'un humain résoudrait par intuition, le modèle échoue — c'est ce qu'affirment les auteurs.
Dans la deuxième expérience, six modèles (gpt-4o-mini, o3-mini, gemini-2.0-flash-exp, gemini-2.5-pro, deepseek-chat, Deepseek-r1) ont été comparés sur six jeux de caractères différents, de l'action en temps réel aux puzzles spatiaux (zelda, aliens, boulderdash, realsokoban, escape, sokoban). Dans le Tableau 3, parmi les LLMs, le GPT-o3-mini axé sur le raisonnement se détache d'une tête, avec des taux de victoire de 80,0 % sur Aliens, 72,0 % sur Zelda, 52,0 % sur Sokoban et 44,0 % sur Escape. Le modèle de raisonnement Deepseek-r1 s'est également bien tenu dans les situations nécessitant de la planification, à 50,0 % sur Sokoban et 54,5 % sur Escape. En revanche, realsokoban était proche de 0 % pour presque tous les modèles, seul gemini-2.5-pro atteignant 4,0 %.
Les algorithmes de recherche classiques placés comme baselines restent solides. L'agent de recherche arborescente olets a enregistré 100,0 % sur Aliens, 76,0 % sur Zelda et 68,0 % sur Escape. Tout en résumant que « les LLMs sont généralement en deçà des méthodes basées sur la recherche », les auteurs notent que certains LLMs ont tenu étonnamment bien dans des environnements axés sur la planification comme Sokoban et Escape, et suggèrent prudemment qu'ils pourraient avoir des raisonnements structurés utiles là où la recherche seule est insuffisante. Ils ont également essayé un étiquetage de coordonnées pour aider l'ancrage spatial, mais le Tableau 6 rapporte aucune amélioration statistiquement significative selon le test exact de Fisher (une méthode pour juger si une différence est due au hasard même avec peu d'essais).
Cas d'usage
Comment les créateurs de jeux et de puzzles peuvent-ils alors utiliser cette étude ? Je vais donner des exemples concrets. Premièrement, si vous concevez un puzzle de type Sokoban-like avec des caisses à pousser et envisagez d'utiliser l'IA comme playtesteur, ce papier est une carte réaliste. Le fait que realsokoban soit proche de 0 % pour presque tous les modèles montre qu'on ne peut pas entièrement déléguer à un modèle de langage seul la planification à plusieurs coups du type « pousser des caisses pour tracer un chemin ». Pour avoir l'IA résoudre les niveaux et mesurer la difficulté, il faut choisir un modèle axé sur le raisonnement ou le coupler à un algorithme de recherche externe.
Deuxièmement, si vous générez automatiquement des niveaux pour l'hyper-casual ou la PCG, l'idée de préparer un langage qui écrit règles et niveaux de façon compacte (comme VGDL) et de faire tourner les niveaux générés dans une boucle d'auto-évaluation algorithmique se transfère directement. Intégrer un mécanisme de vérification automatique de la solvabilité dans votre pipeline de génération évite de produire en masse des niveaux cassés. Troisièmement, si vous construisez des tutoriels ou des systèmes d'indices, l'analyse des échecs du papier est une carte au trésor. Connaître les habitudes du modèle — se tromper sur son identité après avoir ramassé une clé, ou ne rien faire quand il faudrait agir — permet de concevoir en avance les faiblesses d'une IA d'aide au joueur.
C'est également utile pour la recherche et l'éducation. La conception des prompts du papier (comment les instructions au modèle sont assemblées) — transformer la grille en ASCII et indiquer les coordonnées, traduire les règles en langage naturel — constitue une recette pratique pour tester votre propre IA de jeu. En s'appuyant sur le code publié par les auteurs (leur dépôt GitHub), on peut démarrer des expériences qui font jouer un modèle de langage à son propre jeu sans partir de zéro.
Limites
Je noterai à la fois les limites que les auteurs reconnaissent et celles que j'ai remarquées en lisant. Les auteurs déclarent clairement que le benchmark est « very far from solved », que l'aide spatiale par étiquetage de coordonnées ne résout pas entièrement la faiblesse centrale, que les modèles de langage manquent de planification algorithmique de chemin au sens de A* (une méthode de recherche du plus court chemin classique), et que le contextual prompting n'a pas aidé. Ils organisent les échecs — non explicables par du bruit aléatoire — en trois sources : ancrage spatial, identité symbolique et cohérence comportementale.
Ce que je soulèverais ici est un biais dans la conception de l'évaluation. Seul GPT-4o-mini a été exécuté sur les 118 jeux ; la comparaison multi-modèles est limitée à six jeux. Donc, depuis ce seul papier, on ne peut pas conclure à l'échelle de 118 jeux quel modèle est globalement le plus fort. Par ailleurs, la conception zero-shot sans mémoire est cohérente pour mesurer le raisonnement sur le vif, mais les agents que les gens utilisent réellement combinent normalement mémoire et outils. Je veux être prudent de ne pas trop généraliser ces chiffres en « les LLMs ne peuvent pas résoudre les jeux ».
Un autre point : les modèles évalués (gpt-4o-mini, o3-mini, gemini, famille deepseek) correspondent à la situation de mi-2025, et ce domaine met à jour ses modèles rapidement. Et c'est un preprint en cours d'évaluation à l'AAAI 2026, avec peu de citations accumulées, donc pas encore à un stade largement débattu. Je pense qu'il est plus sûr de le lire en partant du principe que les conclusions pourraient évoluer dans de futures versions.
La lecture de Fukai
À partir d'ici, avec la précision que c'est mon interprétation : je veux positionner cette étude comme un nouveau chapitre, à l'ère des modèles de langage, de la question que la recherche en IA de jeu a construite pendant des années — comment mesurer la généralité. Dans le vocabulaire de la critique de conception, le fait que GVGAI ait préparé, via le petit langage de description VGDL, un « terrain d'essai extensible à l'infini pour fabriquer des jeux » est important ; cela se lit comme proche d'une tentative de détacher la mesure même de la difficulté et du plaisir d'un titre spécifique et de la rendre réutilisable. Le résultat que les algorithmes de recherche dépassent encore les modèles de langage me semble insister silencieusement sur le fait que « penser en mots » et « planifier le plateau comme un espace » sont des capacités différentes.
Pour conclure
Pour ceux qui veulent approfondir, lire les travaux connexes des mêmes auteurs fait apparaître la carte. GameTraversalBenchmark (Nasir, James, Togelius, 2024), qui évalue les LLMs sur la navigation en carte 2D, est continu avec la faiblesse du raisonnement spatial de ce papier. Pour saisir la théorie du côté génération, le manuel « Procedural Content Generation in Games » (Shaker, Togelius, Nelson, 2016) est la base. Les auteurs préfigurent d'étendre le travail pour que les modèles de langage non seulement jouent aux jeux mais les conçoivent — en générant des règles et des niveaux — et pour les créateurs, c'est peut-être là que le vrai sujet commence. Je vais préparer un café fort et attendre la suite.
Références
Articles et ressources connexes référencés dans cet article :
・Code publié par les auteurs (GitHub: doveliyuchen/GVGAI_GYM)
・Travaux connexes : GameTraversalBenchmark (Nasir, James, Togelius, 2024) (évaluation de la navigation 2D et de la planification des LLMs)
・Travaux connexes : Shaker, Togelius, Nelson, « Procedural Content Generation in Games » (Springer, 2016) (manuel de PCG)
Reactions (no login)
Anonymous • one of each per visitor per day