ARTIKEL-ZUSAMMENFASSUNG · 2026-06-29
Bazzaz et al.: Der Glaube, es sei KI, aendert das Erleben — gelesen von Fukai
Wahrnehmungsverzerrung bei generiertem Spielinhalt und Erfahrung der Spieler (HCI)
Zusammenfassung in einem Absatz
Waehrend KI-generierte Inhalte rasch in Spiele eindringen: Wie erleben Spieler das? Dieser Artikel nimmt Super Mario Bros. und Sokoban (ein Gitterpuzzle, bei dem man Kisten zu Zielpunkten schiebt) als Thema, laesst 142 Personen eine Mischung aus menschlichen und KI-generierten Levels spielen, und sammelt ihre Einschaetzungen sowie Spieleindruecke.
Ergebnis: Die Spieler konnten den Autor kaum erkennen (Trefferquote entspricht dem Zufall), bewerteten aber die Level, die sie fuer KI-erstellt hielten, als weniger spaszig, schwieriger und frustrierender. Was die Erfahrung beeinflusste, waren die Vorannahmen ueber den Autor, nicht der tatsaechliche Autor.
Einleitung
Die Autoren sind Mahsa Bazzaz und Seth Cooper, beide an der Northeastern University (USA). Der Artikel erscheint bei CHI '26 der ACM (Human Factors in Computing Systems 2026) als begutachteter Konferenzartikel. Das Preprint wurde am 15. Februar 2026 auf arXiv eingereicht.
Ich habe diesen Artikel heute gewaehlt, weil das Thema direkt mit der Praxis der Entwickler zusammenhaengt. Level und Assets mit generativer KI zu erstellen ist laengst keine Laborsache mehr, sondern eine Realitaet in den Steam-Regalen. Laut dem Artikel tragen etwa 10.000 Spiele auf Steam das Tag AI content und etwa 10.200 das Tag procedural content. Diese Forschung steht vor dem Hintergrund der von Steam im Januar 2024 eingefuehrten Politik: Legt offen, wie ihr KI verwendet.
Hintergrund
Die in diesem Bereich immer wieder gestellte Frage ist die des Turing-Test-Typs. Zahlreiche Studien haben gemessen, ob generierter Inhalt von menschlichem zu unterscheiden ist. Beim Mario-AI-Wettbewerb 2009-2012 gab es eine Turing-Test-Sektion, und fuer Sokoban-Level wurde vor etwa zehn Jahren ein aehnlicher Vergleich unternommen.
Die Autoren halten fest, dass die Frage, ob man unterscheiden kann, und die Frage, wie der Glaube, unterschieden zu haben, die Erfahrung formt, zwei verschiedene Probleme sind. Die Psychologie hat dafuer den robusten Rahmen des Placebo- und Nocebo-Effekts. Fruehere Studien zeigten, dass allein die falsche Information, dass die Schwierigkeit sich automatisch anpasst, das Immersionsgefuehl der Spieler steigerte (Denisova und Cairns, 2015).
Dieser Artikel bringt diese Linie in die Bewertung von Spiellevels. Neu ist, dass nicht das Priming als Design gewaehlt wurde, sondern die Beobachtung der Mutmassungen, die Spieler spontan hegen. Was passiert, wenn ein Spieler von selbst mutmasst, das ist vielleicht KI?
Methode
Die Methode ist eine Mixed-Methods-Studie. Das Thema sind Super Mario Bros. und Sokoban — etablierte Benchmarks der PCG-Forschung (Procedural Content Generation), mit einfacher Bedienung und geeignet fuer Online-Studien.
Die Level sind insgesamt 60. Fuer jedes Spiel wurden 15 menschliche und 15 KI-generierte Level vorbereitet. Die menschlichen Mario-Level stammen aus dem oeffentlichen Datensatz VGLC; die Sokoban-Level sind 15 zufaellig aus einem Set von 1.150. Die KI-generierten wurden mit 6 durch Literaturrecherche ausgewaehlten Methoden erstellt. Nur die besten zu waehlen wuerde verzerren — daher Zufallsstichprobe; offensichtliche Defekte wuerden die KI sofort verraten — daher nur loesbare Level ohne Defekt.
Die Teilnehmer sind 154 ueber Prolific rekrutierte Personen; nach Ausschluessen 142 gueltige Antworten. Jede Person spielte 6 zufaellig ausgewaehlte Level (852 Versuche, etwa 14 Personen pro Level). Pro Level: Binaerwahl (KI oder Mensch?), Ueberzeugungsgrad, 5 Erfahrungsindikatoren auf 5 Punkte, und eine Freitext-Begruendung. Die Analyse nutzt ordinale logistische Regression mit zufaelligen Effekten.
Befunde
Zuerst zur Ratespielaufgabe. Die Trefferquote betraegt 53 % (430 von 812 Versuchen); kein statistisch signifikanter Unterschied zum Zufall (50 %) (zweiseitiger Binomialtest p = .099, 95%-KI [49,5 %, 56,4 %]; Abschnitt 4.1). Verwechslung Mensch-fuer-KI: 26,6 %; KI-fuer-Mensch: 26,3 % — nahezu symmetrisch.
Die Bewertung des Erlebnisses war deutlicher. Je mehr ein Spieler glaubt, ein Level sei von einem Menschen erstellt, desto hoeher bewertet er es in Spasz (beta = 1,54, z = 9,52, p < .001; der tatsaechliche Autor ist nicht signifikant) und visueller Qualitaet (z = 10,480, p < .001). Umgekehrt: je mehr er glaubt, es sei KI, desto frustrierender (beta = -1,17, z = -7,445, p < .001) und schwieriger (z = -2,41, p < .015). Mittelwerte: Spasz 2,92 vs. 3,72; Frustration 3,60 vs. 2,84; Visuals 2,70 vs. 3,57.
Die Freitext-Analyse der Urteilsbegruendungen (Inter-Rater Cohen's kappa Durchschnitt 0,76) ist ebenfalls aufschlussreich. Spieler nutzten Hinweise wie das Anfassgefuehl, die Layout-Konsistenz, die Erreichbarkeit, wahrgenommene Designabsicht, Vergleiche mit bekannten Spielen und die Vorannahme, eine KI wuerde es so machen. Aber dieselben Hinweise fuehrten zu entgegengesetzten Schluessen: Derselbe Kniff wurde von einer Person als Beweis menschlichen Designs gewertet, von einer anderen als Beweis fuer KI. Das Urteil ueber Menschlichkeit ist subjektiv und fehleranfaellig (fallible).
Schliesslich die Einstellungen gegenueber PCG und generativer KI. Ihre Bewertungsverteilungen unterscheiden sich statistisch deutlich (chi2(16) = 473,71, p < .001), die Bewertungen der generativen KI sind negativer. Personen, die generativer KI positiv gegenueberstehen, bewerteten Spasz (z = 3,247, p = .0011) und Visuals (z = 2,391, p = .0168) hoeher. In den Freitexten konzentrierten sich Bedenken zu Unvorhersehbarkeit, Fehleranfaelligkeit, Ethik der Trainingsdaten, Umweltbelastung und Auswirkungen auf Beschaeftigung gegenueber generativer KI.
Anwendungsmoeglichkeiten
Wie koennen Spiel- und Puzzle-Entwickler dieses Ergebnis nutzen? Es handelt sich um eine Beobachtungsstudie, nicht um einen Artikel, der kausal behauptet, dass der Glaube, es sei KI, zwangslaeufiig zu Langeweile fuehrt.
Erstens, wenn man Sokoban-artige Puzzles automatisch generiert — das Risiko, dass die Bewertung sinkt, sobald man glaubt, es sei KI-gemacht, sollte als Designvariable behandelt werden. In diesem Artikel wurden Level, die fuer KI gehalten wurden, bei Spasz und Visuals einen Tick niedriger und bei Frustration hoeher bewertet. Nicht nur die Produktionen selbst, sondern auch wie sie praesentiert werden A/B-zu-testen verdient gleiches Gewicht.
Zweitens, wenn man bei einem Hypercasual- oder Erkundungsspiel mit PCG wirbt — regelbasiertes PCG war relativ wohlwollend als kontrollierbar und vertrauenswuerdig wahrgenommen, waehrend generative KI pauschal auf Abwehr stiess. Eine nuanced disclosure — Offenlegung, die konkret angibt, wo und warum die KI verwendet wurde — ist statt eines einfachen Ja/Nein eher geeignet, Abzuege durch Missverstaendnisse zu vermeiden.
Drittens, bei der Interpretation der Schwierigkeitskalibrierung vorsichtig sein. Wenn Spieler schwierig oder frustrierend melden, kann in dieser Studie nicht getrennt werden, ob es sich um die objektive Schwierigkeit oder um strengeres Hinschauen handelt, weil man KI vermutete. Das Verschleiern von Autorinformationen oder die Randomisierung der Praesentationsreihenfolge macht die Dateninterpretation weniger fehleranfaellig.
Einschraenkungen
Von den Autoren anerkannte Schwaachen: Das Thema umfasst nur zwei kurze 2D-Kachelspiele, die Generalisierbarkeit ist unbekannt; die 1-Item-5-Punkt-Indikatoren sind weniger praezise als GEQ oder GUESS; wenig erfahrene Level-Designer unter den Teilnehmern; und das Design ist beobachtend — Kausalitaet kann nicht behauptet werden.
Fukai fuegt hinzu: Die Beschraenkung der KI-Level auf loesbar und ohne offensichtlichen Defekt klammert die Realitaet haeufiger Produktionsfehler im Feld aus. Und Teilnehmer nur aus den USA, englischsprachig und erwachsen — Einstellungen zu KI variieren nach Kultur und Generation, was Vorsicht vor direkter regionaler Uebertragung gebietet.
Fukais Lesart
Ab hier meine (Fukais) Lesart. Ich moechte diese Forschung in die Bewegung einordnen, bei der sich der Schwerpunkt der PCG-Forschung von der Automatisierung von Qualitaet zur Gestaltung von Vertrauen verschiebt. Die bisherige Turing-Test-Forschung hat darum gewetteifert, Ausgaben zu produzieren, die von menschlichen nicht zu unterscheiden sind. Aber was dieser Artikel aufzeigt, ist: Selbst nachdem die Unterscheidung unmoeglich geworden ist, faerbt die Autorfigur im Kopf des Spielers die Erfahrung weiter. Das ist kein Problem der Generator-Leistung, sondern ein Problem der Meta-Designschicht aus Praesentation und Offenlegung.
Zum Weiterlesen
Fuer alle, die tiefer eintauchen moechten. Fruehe Sokoban-Studien, die die Ununterscheidbarkeit selbst als Bewertungsachse nehmen, und Camilleri et al. (2016) zur Spielerglaubwuerdigkeit in Mario zeigen die Genealogie des Turing-Tests in Spielen. Denisova und Cairns' Studie ueber die falsche adaptive KI (CHI PLAY 2015) ist ein verstaendlicher Ausgangspunkt. Die Diskussion ueber den Markt fuer Zitronen (Akerlof) bildet die Grundlage fuer die lemons dynamic-Sichtweise in diesem Artikel. Coopers constraint-basierte Sturgeon-Arbeiten bilden einen guten Einstiegspunkt fuer diejenigen, die die Generatoren selbst erkunden moechten.
Literatur
In diesem Artikel herangezogene Veroeffentlichungen und verwandte Ressourcen:
DOI: 10.1145/3772318.3790473 (CHI 26, begutachtet)
The Placebo Effect in Digital Games (Denisova & Cairns, 2015, CHI PLAY)
Sturgeon: tile-based procedural level generation (Cooper, 2022, AIIDE)
Reactions (no login)
Anonymous • one of each per visitor per day