PAPER-REVIEW · 2026-06-11

Feng et al.: Kann KI kontra-intuitive Schachpuzzles komponieren? — Fukai liest

Kreative Schachpuzzle-Generierung mit generativer KI und Reinforcement Learning

Kernpunkte (TL;DR)

Dieser Artikel nimmt die Herausforderung an, KI kontra-intuitive Schachpuzzles komponieren zu lassen. Ein Team rund um Google DeepMind trainiert zunächst ein generatives Modell auf der umfangreichen Puzzle-Sammlung von Lichess (einer der größten kostenlosen Online-Schachseiten der Welt) und nutzt dann Reinforcement Learning (RL), um die Ausgabe in Richtung Positionen zu lenken, wo „der beste Zug auf den ersten Blick schlecht aussieht".

Ergebnis: Die Rate der Generierung solcher kontra-intuitiver Puzzles stieg von 0,22 % mit reiner Supervision auf 2,5 % — etwa zehnmal mehr, und übersteigt sogar den Anteil dieses Typs in den Ursprungsdaten (2,1 %). Zudem wurden die generierten Puzzles von menschlichen Schachexperten als „kreativ und interessant" bewertet, und drei Weltexperten erkannten die Kreativität eines Ergebnishefts an. Das ist eine konkrete Antwort auf die schwierige Frage, ob KI kreativ sein kann.

Einleitung

Guten Morgen. Mit einem starken heißen Filterkaffee in der Hand durchstöberte ich heute Morgen die arXiv-Neuerscheinungen, als mir ein Artikel auffiel, den kein Puzzle-Enthusiast ignorieren konnte. Ich stelle heute Generating Creative Chess Puzzles vor, veröffentlicht auf arXiv im Oktober 2025. Die Forschung ist von Xidong Feng von Google DeepMind mitgezeichnet und zwölf weiteren Forschern aus Oxford und Mila (dem KI-Forschungsinstitut in Montreal), mit Tom Zahavy und Satinder Singh — beide bekannt für Arbeiten zu RL und Schach-KI — als korrespondierende Autoren.

Nötige Klarstellung: Es handelt sich um ein auf arXiv eingereichtes Preprint, also ein Manuskript, das vor dem Peer-Review veröffentlicht wird und im Oktober 2025 möglicherweise noch kein Peer-Review durchlaufen hatte. Ich verwende daher „sie zeigen" oder „sie finden" nur im Rahmen dessen, was die Autoren selbst schreiben.

Ich habe es dennoch gewählt, weil es die schwer fassbare Frage, ob KI kreativ sein kann, direkt mit Schachpuzzles als messbarem Terrain angeht. Kreativität ist unscharf und schwer zu quantifizieren; die Vorgehensweise, sie auf maschinenverarbeitbare Form zu reduzieren, ist lehrreich für alle, die Puzzles oder Spiele entwerfen.

Hintergrund — Warum ist kreative Puzzle-Generierung schwierig?

Generative KI hat in Text, Bild, Code und vielen anderen Bereichen bemerkenswerte Ergebnisse erzielt. Die Autoren beginnen jedoch aus dem Forschungskontext heraus, wonach Kreativität seit Langem als „letzte Grenze" der KI gilt. KI-Poesie mag auf den ersten Blick von menschlicher ununterscheidbar sein, doch Experten erkennen ein Mangel an struktureller Tiefe. Unerwartete Ideen, abstraktes Denken, komplexer Aufbau — in diesen Bereichen bleibt KI hinter dem Menschen zurück, so die Position des Feldes.

Schachpuzzles werden seit Langem in Bildung, Online-Unterhaltung und Forschung zur computerbasierten Kreativität eingesetzt. Kreative Puzzles zu erstellen ist jedoch schwierig. Erstens bleibt der „rote Faden" eines Puzzles verborgen, bis man die Lösung sieht: schwer, seine Qualität von außen zu beurteilen. Zweitens gibt es keine Standarddefinition, was ein gutes Schachpuzzle ist — kein objektives Maß für Kreativität oder Schönheit.

Die Autoren stützen sich auf die von Lichess veröffentlichte Puzzle-Sammlung, einer der größten Online-Schachseiten der Welt. Die Datenbank sammelt jährlich rund eine Million Puzzles an, aber nach den Kriterien der Autoren sind nur 2,1 % davon als „kontra-intuitiv" einzustufen. Hochwertige kreative Puzzles sind von Natur aus selten, und KI dazu zu bringen, sie in großer Zahl zu produzieren, ist für sich genommen ein großes Hindernis.

Ansatz — Kreativität in Zahlen übersetzen, dann per RL gezielt steuern

Die Autoren definieren zunächst sprachlich, was ein kreatives Puzzle ausmacht, und übersetzen das dann in maschinell messbare Zahlen. Drei Dimensionen aus der Schachliteratur: Kontra-Intuitivität (counter-intuitiveness), Ästhetik (aesthetics), Neuheit (novelty). Sie betonen auch die Eindeutigkeit der Lösung — mehrere richtige Antworten würden das Vergnügen mindern, den präzisesten Zug zu finden.

Interessant ist die Messung der Kontra-Intuitivität. Eine Schach-Engine (Stockfish, AlphaZero — Programme, die die Position lesen und den besten Zug berechnen) wird dazu gebracht, flach und dann tief zu denken; die beiden Bewertungen werden verglichen. Flache Suche approximiert menschliche Intuition, tiefe Suche präzise Bewertung. Je größer die Diskrepanz zwischen einem Zug, der oberflächlich schlecht wirkt, und optimal in der Tiefe, desto höher die Kontra-Intuitivitäts-Bewertung. Die kritische Tiefe (critical depth, der zentrale Indikator der Arbeit) — wie tief die Engine suchen muss, um die Lösung zu finden — spielt eine Schlüsselrolle.

Die Generierung funktioniert so: Eine Position wird in FEN (Forsyth-Edwards Notation, eine Notation, die die Figurenaufstellung als kurze Zeichenkette darstellt) übersetzt, dann wird die Position wie Text „geschrieben". Die Autoren trainieren und vergleichen mehrere Architekturen — Transformer, Diffusionsmodell — nur auf Lichess-Daten und starten dann Reinforcement Learning mit den obigen Zahlen als Belohnungen. Eindeutig und kontra-intuitiv: +1; legal aber banal: 0; illegal: −2.

Aber naives Maximieren der Belohnung lässt die KI endlos dasselbe hochbewertete Puzzle erzeugen und verliert an Diversität — was die Autoren entropy collapse (Entropie-Kollaps) nennen. Auch „Mogeln" trat auf, etwa durch Hinzufügen von Figuren (zwei weiße Damen), um Punkte zu erhöhen. Die Autoren kombinieren daher einen Diversitäts-Filter, der nur Positionen akzeptiert, die sich hinreichend von früheren unterscheiden, Einschränkungen für illegale Figurenzahlen und einen Mechanismus, der verhindert, zu weit von den Ursprungsdaten abzuweichen, um das Training zu stabilisieren.

Ergebnisse — Zehnfach mehr kontra-intuitive Puzzles

Das Hauptergebnis ist, dass Reinforcement Learning die Generierung kontra-intuitiver Puzzles stark erhöht hat. Laut der Arbeit stieg die Generierungswahrscheinlichkeit von 0,22 % mit Supervision (Transformer auf Lichess-Daten trainiert) auf 2,5 % — übersteigt das 0,4 % des besten auf Lichess trainierten Modells und auch die 2,1 % in den Ursprungsdaten. Die Autoren beschreiben es als „etwa zehnfache" Verbesserung.

Für Ästhetik (aesthetics) beobachten die Autoren, dass die generierten Puzzles ästhetische Themen gut bewahren, obwohl Ästhetik nicht direkt in die Belohnung integriert war. In der menschlichen Bewertung wurden einige generierte Puzzles als kreativer, spaßiger und kontra-intuitiver beurteilt als „Composed Puzzles" aus Schachbüchern, manche nähern sich klassischen Meisterwerken. Das finale Ergebnisheft erhielt die Anerkennung seiner Kreativität von drei weltweiten Schachexperten.

Dieses Ergebnis hält ohne den Diversitäts-Filter nicht stand. Die Autoren erklären, dass der Filter unerlässlich war, um Reward Hacking zu verhindern und das Training zu stabilisieren. Nicht einfach „die Belohnung zu erhöhen", sondern „immer neue und vielfältige Dinge zu erzeugen" war der Schlüssel zur Kreativität.

Anwendung — Ratschläge für Puzzle- und Spielentwickler

Erster Punkt: die Idee, Interesse maschinell zu messen. Die Kontra-Intuitivität durch die Diskrepanz zwischen flacher und tiefer Suche zu bewerten ist auch außerhalb des Schachs anwendbar. Wenn man ein Sokoban-like-Logikpuzzle entwickelt, kann man demselben Level einen schwachen Solver (flache Suche) und einen starken Solver (tiefe Suche) lösen lassen und Level, bei denen die Bewertungen auseinandergehen, als „Level, bei denen der Trick wirkt" herauspicken. Das erlaubt eine erste numerische Einschätzung von Schwierigkeit und Kniffligkeit, ohne vollständig auf menschliche Tests angewiesen zu sein.

Zweiter Punkt: die Pipeline Generieren-dann-Verifizieren. Diese Forschung inspiziert jede generierte Position auf Legalität, Eindeutigkeit und Kontra-Intuitivität und behält nur jene, die bestehen. Wenn man Level für Casual-Games massenhaft per PCG (Procedural Content Generation) generiert, kann man dieselbe Struktur anwenden: die Ausgabe des Generators nicht direkt verwenden, sondern automatisch nach „lösbar, eindeutige Lösung, angestrebte Schwierigkeit" filtern.

Dritter Punkt: sich gegen Reward Hacking und den Kollaps der Diversität wappnen. Lässt man die Optimierung laufen, findet die KI Abkürzungen wie das Hinzufügen von Figuren, produziert dieselbe Antwort in Masse und langweilt. Wenn man per RL oder Suche Level automatisch generiert, sind diese Misserfolge fast sicher — man sollte vorab einen Diversitäts-Filter und Einschränkungen einbauen, die illegale Zustände eliminieren.

Vierter praktischer Punkt: die vorhandene Masse an Nutzer-Einreichungen oder Spielprotokollen kann direkt als „Referenzdaten" dienen. So wie diese Studie öffentliche Lichess-Puzzles als Grundlage nutzte, ist ein zweistufiges Verfahren — erst ein generatives Modell auf vorhandenen Spielinhalten trainieren, dann per Belohnungen in die gewünschte Richtung lenken — breit anwendbar.

Grenzen — Was die Autoren einräumen, und was ich bemerkt habe

Beginnen wir mit den Schwächen, die die Autoren selbst einräumen. Erstens wurde Ästhetik (aesthetics) nicht direkt in die Belohnung integriert; sie wurde nur in den Ergebnissen beobachtet, nicht gezielt optimiert. Zweitens ist naives RL anfällig für Entropie-Kollaps und Reward Hacking (Figuren hinzufügen) und stabilisiert sich nicht ohne die Hilfe des Diversitäts-Filters. Außerdem liegt die Generierungsrate kontra-intuitiver Positionen auch nach Verbesserung bei 2,5 % — die große Mehrheit erfüllt die Kriterien noch immer nicht. Die menschliche Bewertung sagt auch „nahe an" klassischen Meisterwerken, nicht „übertrifft".

Hier folgen Punkte, die ich, Fukai, beim Lesen bemerkt habe. Erstens hängt diese Methode stark vom Schach ab, einer außergewöhnlich begünstigten Umgebung, wo eine starke Engine die „richtige Antwort" liefert. Neue originale Puzzles haben kein Äquivalent zu Stockfish als Schiedsrichter. Zweitens ist die Definition der Kontra-Intuitivität als „schwer für flache Suche, lösbar in der Tiefe" nur eine Annäherung an menschliche Intuition, keine exakte Entsprechung. Wo eine Engine steckenbleibt und wo ein Mensch steckenbleibt, muss nicht dasselbe sein.

Drittens konnte ich die Zahlentabellen der Experimente und die Details der menschlichen Bewertung (Anzahl der Teilnehmer, Verfahren) im Originaltext nicht verifizieren. Die Schlussfolgerung „von Experten hoch bewertet" wird daher als Aussage der Autoren akzeptiert; ich werde mich über Umfang und Strenge nicht äußern. Im Hinblick auf das Preprint-Stadium ist es die vernünftigste Haltung, die Ergebnisse als vielversprechendes Anzeichen zu lesen.

Fukais Lektüre

Von hier an schreibe ich explizit als meine persönliche Interpretation. Ich möchte diese Forschung als Automatisierung der „Überraschung" lesen. Im Kern eines guten Puzzles liegt der Zug, der im Moment der Lösung die Intuition auf den Kopf stellt. Diese Forschung erfasst dieses „Umkehren" in Form der Diskrepanz zwischen flacher und tiefer Suche und überführt es in eine von Maschinen verfolgbare Größe. Im Vokabular der Designkritik ist das ein Versuch, das Gefühl — das der Designeur implizit besitzt — des „angenehmen Verrats" in die Suchkurve einer Engine, ein äußeres Maß, zu übersetzen. Mehr als Kreativität selbst geschaffen zu haben, lese ich diese Arbeit als eine, die eine Schicht der „Unmessbarkeit" vor der Kreativität abgetragen hat.

Zum Weiterlesen

Für jene, die tiefer einsteigen wollen: Tom Zahavy und seine Co-Autoren haben früher auch Forschungen in Richtung „kreative Züge durch diverse Spielstile in AlphaZero hervorrufen" veröffentlicht. Dieser Artikel ist die Verlängerung dieser Problemstellung; beide zusammen zu lesen zeichnet die Karte eines Projekts, „eine mächtige KI in Richtung Interesse statt Stärke zu lenken".

Und wenn man sich dafür interessiert, dass KI Puzzle-Spiele selbst erstellt, teilt ScriptDoctor — auf dieser Seite vorgestellt — das von LLM und Baumsuche automatisch PuzzleScript-Spiele generiert und verifiziert, ebenfalls die Idee des „Generierens, dann Verifizierens durch Maschinen" und bildet einen schönen Kontrast. Von der geschlossenen Welt des Schachs zur Welt, wo man auch die Regeln erstellt — betrachte sie als verschiedene Maßstäbe der KI-Kreativitätskarte.

Referenzen

In diesem Artikel referenzierte Artikel und verwandte Materialien:

Generating Creative Chess Puzzles (Xidong Feng et al., 2025, arXiv preprint 2510.23881, Google DeepMind u.a.)

Lichess Taktiktraining / Lichess Puzzler (Quelle der Trainingsdaten dieser Studie)

・Verwandte Forschung: Tom Zahavy et al., „Kreatives Schach durch diverse Spielstile in AlphaZero" (Google DeepMind, 2023) — Vorläuferarbeit mit derselben Problemstellung wie diese Studie

Reactions (no login)

Anonymous • one of each per visitor per day

次に読む

おすすめエッセイ · 2026-06-11

物語のあるパズル、ないパズル — Lorelei と Stephen's Sausage Roll の対比

Stephen's Sausage Roll の純粋な手筋と、Lorelei and the Laser Eyes の物語と一体化した解法。物語のあるパズルとないパズルがそれぞれ何を売っているのかを、Obra Dinn、Golden Idol、COCOON、Machinarium を並べて設計者視点で対比する。