PAPER-DIGEST · 2026-06-16
Li et al.: Können LLMs 2D-Spiele „spielen und gewinnen"? — Fukai liest GVGAI-LLM
Spiel-KI-Benchmark / räumliches Schlussfolgern von Sprachmodellen
Zusammenfassung in einem Absatz
Große Sprachmodelle (LLMs — KI, die auf riesigen Textmengen trainiert wird, um Fortsetzungen und Antworten zu generieren) sind gut im Schreiben, aber ob sie ein 2D-Spiel wirklich spielen und gewinnen können, ist eine völlig andere Frage. Dieser Artikel stellt GVGAI-LLM vor, einen Benchmark (eine gemeinsame Sammlung von Testaufgaben zum Leistungsvergleich), der Sprachmodelle 118 Arcade-artige Spiele spielen lässt, um ihr Schlussfolgern und ihre Problemlösung zu messen. Jedes Spielfeld wird in eine ASCII-Karte (ein Raster aus eingebbaren Zeichen) umgewandelt und dem Modell übergeben; das Verhalten wird nach Gewinnrate und dem Anteil „bedeutsamer Züge" bewertet.
Das Hauptergebnis: Die heutigen Modelle schaffen fast keines der Spiele. Laut dem Paper erzielte GPT-4o-mini bei 477 der 540 getesteten Level eine Gewinnrate von 0 % und eine Gesamtgewinnrate von nur 10,27 %. Es bestehen tiefe Schwächen beim räumlichen Erfassen und beim Planen über mehrere Züge. Ich werde entpacken, was darin steckt, sodass die Kernpunkte ohne Öffnen des Papers erfasst werden.
Einleitung
Was ich heute ausgedruckt und annotiert habe, ist „GVGAI-LLM: Evaluating Large Language Model Agents with Infinite Games" von Yuchen Li, Cong Lin, Muhammad Umair Nasir, Philip John Bontrager, Jialin Liu und Julian Togelius. Die Zugehörigkeiten erstrecken sich über die New York University (NYU), die University of the Witwatersrand, Meta und die Lingnan University. Die Quelle ist ein arXiv-Preprint (arXiv:2508.08501); eine Notiz im Paper besagt, dass es sich bei AAAI 2026 in Begutachtung befindet. Es handelt sich also um ein Manuskript, das noch nicht notwendigerweise durch Peer Review gegangen ist, und ich behandle es hier so.
Warum ich es heute gewählt habe: Einer der Autoren, Julian Togelius, hat die Forschung in PCG (Procedural Content Generation, Technologie zur automatischen Erstellung von Spielinhalten) und Spiel-KI seit Jahren geleitet, und mich zog die direkte Auseinandersetzung seiner Gruppe mit der Frage an, was passiert, wenn man ein LLM Spiele spielen lässt. Generative KI auf die „Spielen-und-Lösen"-Seite zu stellen statt auf die „Bauen"-Seite, offenbart, wo sie hängen bleibt. Ich urteilte, dass dies eine grundlegende Frage für alle ist, die Spiele machen und KI für Playtesting oder Schwierigkeitsanpassung nutzen wollen.
Hintergrund
Die Grundlage dieser Arbeit ist ein Framework namens GVGAI (General Video Game AI). Es handelt sich um eine Forschungsumgebung, die über hundert 2D-Spiele versammelt, um nicht „KI, die gut in einem Spiel ist" zu messen, sondern „KI, die auch ein noch nie gesehenes Spiel einigermaßen spielen kann". Spielregeln und Level werden in VGDL (Video Game Description Language, eine Sprache, die Spielregeln und Spielfeld in kompakter Notation ausdrückt) geschrieben, sodass neue Spiele und Level endlos erzeugt werden können. Das „Infinite Games" im Titel kommt daher, mit dem Vorteil, dass die KI Antworten nicht einfach auswendig lernen kann.
Frühere LLM-Benchmarks konzentrierten sich auf statische Aufgaben mit festen Antworten — wie MMLU für Wissen oder HumanEval für Code-Generierung. Aber ein Spiel wirklich zu spielen erfordert, ein sich ständig veränderndes Spielfeld zu lesen, räumliche Beziehungen zu erfassen und mit mehreren Zügen Voraussicht zu handeln. Die Autoren weisen auf eine Lücke hin — dass kein Benchmark existierte, der Entscheidungsfindung mit spielartigen Regeln und räumlichem Schlussfolgern in einer strukturierten symbolischen Welt misst — und bauten GVGAI für Sprachmodelle um, um diese zu füllen. Das ist der Ausgangspunkt dieser Studie.
Ansatz
Das Herzstück der Methode ist die „Übersetzung der Spielwelt in Text, den das Sprachmodell lesen kann". Bei jedem Schritt wird das Spielfeld als zweidimensionale ASCII-Karte dargestellt, und die Regeln werden ebenfalls in natürliche Sprache übersetzt. Das Translator-Modul des Papers schreibt die internen Spielregeln in einfache Sätze um — zum Beispiel: „Wenn der Avatar einen Schlüssel berührt, verschwindet der Schlüssel und der Avatar erhält ihn." Dann wählt das Player-Modul aus dem aktuellen Spielfeld und dem Ziel einen konkreten Zug wie „nach rechts bewegen". Entscheidend: Das Modell erhält weder Codeausführung noch Vorausschau-Simulation; es muss allein mit Worten schlussfolgern.
Die Standardkonfiguration ist Zero-Shot (Antworten nur vom aktuellen Spielfeld aus, ohne durchgearbeitete Beispiele), und es wird keinerlei Gedächtnis vergangener Züge oder Zustände übergeben. Jeden Schritt unabhängig zu behandeln, soll spontanes Schlussfolgern statt Auswendiglernen messen. Die Autoren probierten auch Contextual Prompting (Anweisungen, die eine Geschichte früherer Austausche einschließen), sagen aber, sie hätten es für die Hauptauswertung nicht übernommen, weil sich Schlussfolgerungsfehler aufhäuften und es nur den Token-Verbrauch (die kleinste Einheit der Textverarbeitung durch ein Modell, anfangs auch „Undo" genannt) und die Kosten erhöhte, ohne die Gewinnrate zu verbessern.
Auch die Bewertungsmaße sind durchdacht. Eines ist die „Rate bedeutsamer Züge", die betrachtet, wie viele Züge das Spielfeld wirklich veränderten — im Gegensatz zu verschwendeten Zügen wie das Laufen gegen eine Wand. Ein anderes ist die „Zugeeffizienz", die auf einer Skala von 0 bis 1 ausdrückt, ob der Sieg in weniger Zügen kam. Und dann die Gewinnrate. Ein Gesamtscore, der diese drei Werte mittelt, zielt darauf ab, das Verhalten aus mehreren Blickwinkeln zu erfassen. Die Gleichungen stehen im Paper, aber im Wesentlichen können Sie sie als Messung lesen, ob der Agent wenig Züge verschwendet, schnell fertig wird und wirklich gewinnt.
Befunde
Im ersten Experiment wurde GPT-4o-mini auf allen 118 Spielen ausgewertet. Die Ergebnisse sind hart. Laut Tabelle 2 war die Gewinnrate bei 477 von 540 getesteten Leveln 0 %, die Gesamtgewinnrate 10,27 %, der Gesamtscore 0,2764 und die Zugeeffizienz im Durchschnitt 0,3293. Die Rate bedeutsamer Züge lag im Durchschnitt bei 49,71 %, was bedeutet, dass fast die Hälfte der Züge nichts auf dem Spielfeld veränderte. Selbst bei kleinen, einfachen Levels, die ein Mensch intuitiv lösen würde, scheitert das Modell — so die Autoren.
Im zweiten Experiment wurden sechs Modelle (gpt-4o-mini, o3-mini, gemini-2.0-flash-exp, gemini-2.5-pro, deepseek-chat, Deepseek-r1) auf sechs Spielen unterschiedlicher Art verglichen, von Echtzeit-Action bis zu Raumrätseln (zelda, aliens, boulderdash, realsokoban, escape, sokoban). In Tabelle 3 sticht unter den LLMs das auf Reasoning spezialisierte GPT-o3-mini mit einem Kopf Vorsprung heraus, mit Gewinnraten von 80,0 % bei Aliens, 72,0 % bei Zelda, 52,0 % bei Sokoban und 44,0 % bei Escape. Das Reasoning-Modell Deepseek-r1 hielt sich ebenfalls in planungsintensiven Situationen gut: 50,0 % bei Sokoban und 54,5 % bei Escape. Dagegen war realsokoban für fast alle Modelle nahe 0 %, nur gemini-2.5-pro erreichte 4,0 %.
Die als Baselines gesetzten klassischen Suchalgorithmen bleiben stark. Der baumsuchende Agent olets verzeichnete 100,0 % bei Aliens, 76,0 % bei Zelda und 68,0 % bei Escape. Während sie zusammenfassen, dass „LLMs generell hinter suchbasierten Methoden zurückbleiben", bemerken die Autoren, dass sich einige LLMs in planungsintensiven Umgebungen wie Sokoban und Escape überraschend gut hielten, und schlagen vorsichtig vor, dass sie möglicherweise nützliche strukturierte Schlussfolgerungsvoraussetzungen für Situationen haben, in denen Suche allein unzureichend ist. Sie probierten auch Koordinaten-Tagging zur räumlichen Unterstützung, aber Tabelle 6 berichtet keine statistisch signifikante Verbesserung nach Fishers exaktem Test (einer Methode, um zu beurteilen, ob ein Unterschied zufällig ist, auch bei wenigen Versuchen).
Anwendungsfälle
Wie können also Spielemacher und Puzzle-Designer diese Studie nutzen? Ich möchte konkrete Beispiele nennen. Erstens: Wenn Sie ein Sokoban-like Schiebe-Puzzle bauen und KI als Playtester einsetzen möchten, ist dieses Paper eine realistische Karte. Die Tatsache, dass realsokoban für fast alle Modelle nahe 0 % war, zeigt, dass Sie die Mehrschritt-Planung des Typs „Kisten schieben, um einen Weg freizumachen" heute nicht vollständig einem Sprachmodell allein übertragen können. Um KI Level lösen und die Schwierigkeit messen zu lassen, müssen Sie ein auf Reasoning spezialisiertes Modell wählen oder es mit einem externen Suchalgorithmus koppeln.
Zweitens: Wenn Sie Level für Hyper-Casual oder PCG automatisch generieren, überträgt sich die Idee, eine Sprache vorzubereiten, die Regeln und Level kompakt schreibt (wie VGDL), und generierte Level in einer algorithmischen Auto-Auswertungsschleife zu testen, direkt. Einen Mechanismus zur automatischen Überprüfung der Lösbarkeit in Ihre Generierungspipeline zu integrieren, verhindert, dass Sie massenweise kaputte Level produzieren. Drittens: Wenn Sie Tutorials oder Hinweissysteme bauen, ist die Fehleranalyse des Papers eine Schatzkarte. Wenn Sie die Gewohnheiten des Modells kennen — sich selbst nach dem Aufnehmen eines Schlüssels als jemand anderen zu verwechseln, oder nichts zu tun, wenn es handeln sollte — können Sie die Schwächen einer Spieler-Hilfs-KI im Voraus einplanen.
Es ist auch für Forschung und Bildung nützlich. Das Prompt-Design des Papers (wie die Anweisungen an das Modell zusammengestellt werden) — das Spielfeld in ASCII umwandeln und Koordinaten angeben, Regeln in natürliche Sprache übersetzen — bietet ein praktisches Rezept zum Testen eigener Spiel-KI. Auf dem vom Autorenteam veröffentlichten Code (ihrem GitHub-Repository) aufbauend, können Sie Experimente starten, bei denen ein Sprachmodell Ihr eigenes Spiel spielt, ohne von Null anfangen zu müssen.
Grenzen
Ich werde sowohl die Grenzen notieren, die die Autoren anerkennen, als auch die, die ich beim Lesen bemerkt habe. Die Autoren erklären klar, dass der Benchmark „very far from solved" ist, dass koordinatenbasiertes Tagging die Kernschwäche nicht vollständig behebt, dass Sprachmodelle keine algorithmische Pfadplanung im Sinne von A* (eine klassische Methode zur Suche nach dem kürzesten Weg, anfangs auch „Rückgängig (Undo)" genannt) haben, und dass Contextual Prompting nicht half. Sie ordnen die Fehler — nicht durch zufälliges Rauschen erklärbar — in drei Wurzeln: räumliche Verankerung, symbolische Identität und Verhaltensausrichtung.
Was ich hier hinweisen würde, ist ein Bias im Bewertungsdesign. Nur GPT-4o-mini wurde auf allen 118 Spielen ausgeführt; der Multi-Modell-Vergleich ist auf sechs Spiele beschränkt. Daher kann man aus diesem Paper allein auf 118-Spiele-Ebene nicht schlussfolgern, welches Modell insgesamt am stärksten ist. Außerdem ist das Zero-Shot-Design ohne Gedächtnis kohärent für die Messung spontanen Schlussfolgerns, aber Agenten, die Menschen tatsächlich nutzen, kombinieren normalerweise Gedächtnis und Werkzeuge. Ich möchte diese Zahlen nicht zu sehr in „LLMs können keine Spiele lösen" verallgemeinern.
Noch ein Punkt: Die evaluierten Modelle (gpt-4o-mini, o3-mini, gemini, deepseek-Familie) entsprechen dem Stand von Mitte 2025, und dieses Feld aktualisiert Modelle schnell. Und dies ist ein Preprint in Begutachtung bei AAAI 2026 mit wenig angehäuften Zitierungen — also noch nicht auf einem Stadium breiter Debatte. Ich halte es für sicherer, es unter dem Vorbehalt zu lesen, dass sich die Schlussfolgerungen in zukünftigen Versionen verschieben könnten.
Fukais Lektüre
Von hier an — mit dem Vorbehalt, dass dies meine Interpretation ist: Ich möchte diese Studie als ein neues Kapitel, im Zeitalter der Sprachmodelle, einer Frage positionieren, die die Spiel-KI-Forschung seit Jahren aufgebaut hat: wie man Generalität misst. Im Vokabular der Designkritik ist es von großer Bedeutung, dass GVGAI über die kleine Beschreibungssprache VGDL ein „beliebig erweiterbares Testgelände für das Erstellen von Spielen" vorbereitet hat; dies liest sich als nahe an einem Versuch, den Maßstab zur Bewertung von Schwierigkeit und Spaß selbst von einem bestimmten Spieltitel zu lösen und wiederverwendbar zu machen. Das Ergebnis, dass Suchalgorithmen Sprachmodelle noch immer übertreffen, scheint mir still darauf zu bestehen, dass „in Worten denken" und „das Spielfeld als Raum planen" verschiedene Fähigkeiten sind.
Zum Abschluss
Für die, die tiefer gehen wollen: die verwandten Arbeiten der gleichen Autoren zu lesen, lässt die Karte klarer werden. GameTraversalBenchmark (Nasir, James, Togelius, 2024), das LLMs bei 2D-Karten-Navigation auswertet, ist kontinuierlich mit der Schwäche des räumlichen Schlussfolgerns dieses Papers. Um die generierungsseitige Theorie zu erfassen, ist das Lehrbuch „Procedural Content Generation in Games" (Shaker, Togelius, Nelson, 2016) die Grundlage. Die Autoren kündigen an, die Arbeit zu erweitern, damit Sprachmodelle nicht nur Spiele spielen, sondern sie auch gestalten — Regeln und Level generieren — und für Macher könnte das der Anfang des eigentlichen Themas sein. Ich werde einen starken Kaffee kochen und auf die Fortsetzung warten.
Quellen
In diesem Artikel referenzierte Paper und Materialien:
・Veröffentlichter Code der Autoren (GitHub: doveliyuchen/GVGAI_GYM)
・Verwandte Arbeit: GameTraversalBenchmark (Nasir, James, Togelius, 2024) (Bewertung von 2D-Karten-Navigation und Planung von LLMs)
・Verwandte Arbeit: Shaker, Togelius, Nelson, „Procedural Content Generation in Games" (Springer, 2016) (ein PCG-Lehrbuch)
Reactions (no login)
Anonymous • one of each per visitor per day