论文摘要 · 2026-06-29

Bazzaz 等人：「只是认为是 AI 制作」就会改变体验——Fukai 精读

HCI / 生成内容的知觉偏见与玩家体验

作者: Fukai · #paper-digest #research #pcg #generative-ai #player-experience #perception-bias #game-design #sokoban

一段话概要

在游戏中生成 AI 内容急速渗透之际，玩家对此有何感受？本论文以横向卷轴动作游戏 Super Mario Bros. 和仓库番系谜题 Sokoban（将箱子推到目标位置的格子谜题）为题材，将人类制作的关卡和自动生成的关卡混合，让 142 人游玩，收集了「这是 AI 生成还是人类制作？」的判断以及游玩感受。

结果，玩家几乎无法判断作者（正答率与偶然相当），即便如此，对于自己认为是「AI 制作」的关卡，评价仍然是更不好玩、更难、更令人恼火。也就是说，左右体验的不是实际作者，而是「对作者的成见」，这是本论文的观察。

引言

作者是 Mahsa Bazzaz 与 Seth Cooper 两人，均隶属于美国 Northeastern University（东北大学）。发表于 ACM 的 CHI '26（2026年的 Human Factors in Computing Systems 会议），作为经过同行评审的会议论文被收录。预印本已于2026年2月15日投稿至 arXiv，本文参照了该版本。

我今天选择这篇论文，是因为主题与「制作者的实务」直接相关。用生成 AI 制作关卡和素材的动向，已不再只是研究室的话题，而是陈列在 Steam 店面的现实。根据论文，Steam 上标注「AI 内容」标签的游戏约有1万款，「procedural content」标签约有1万200款。这项研究以 Steam 在2024年1月引入的「公示 AI 使用方式」这一政策为背景。

背景

在这一领域反复被问到的是「图灵测试」型问题。测量「这个生成内容是否与人类制作的难以区分」的研究，在文章、图像、声音、艺术等领域大量涌现。在游戏方面，2009～2012年的 Mario AI 竞赛有「图灵测试部门」，Sokoban 关卡也在大约10年前进行过类似的比较。

然而，作者们整理出：能否区分，与自以为能区分对体验的影响，是两个不同的问题。心理学中有安慰剂效应・反安慰剂效应这一稳健的框架。过去的研究显示，仅仅告知「难度会自动适应」就能提升玩家的沉浸感（Denisova 与 Cairns，2015）。

本论文将这条线引入游戏的关卡评价。新颖之处在于：采用的设计不是通过贴标签来故意制造成见的「启动（priming）」，而是观察玩家自发产生的推测。在平台没有充分公示的现实中，当玩家自己推测「这个可能是 AI」时会发生什么——作者试图观察这一点。

方法

方法是混合研究法（同时收集数值数据和自由记述并加以分析的方式）。题材是 Super Mario Bros. 和 Sokoban。两者都是 PCG（Procedural Content Generation）研究的定番基准，操作简单，适合在线调查。作者希望通过并列两部在类型、目标和认知负荷上都大相径庭的游戏，来检验结果是否能超越游戏形式而成立。

关卡总计60种。各游戏分别准备人类制作15个・AI 生成15个。Mario 的人类制作版来自公开数据集 VGLC 的原作15个关卡，Sokoban 是从1,150个关卡的公开集合中随机选取的15个。AI 生成版则使用文献调查中选出的6种生成手法（包括约束型、机器学习、大型语言模型等）来制作。作者注意了两个陷阱：「只挑出好的输出」会导致结果偏差——所以采用了随机抽样；如果有明显破绽，一眼就能看出是 AI——所以只限定于「可通关」且「外观无破绽」的关卡。

参与者是通过 Prolific（在线调查协作平台）招募的154人。排除未完成等后的有效回答为142人，各人从60种关卡中随机游玩6个（共852次试行，每个关卡约14人评价）。每个关卡进行二选一及其确信度的评价，以及5个体验指标——乐趣、难度、烦躁感、意外性、外观质量——的5分制评价，最后以自由记述写出「为什么这样判断」。分析使用了在顺序逻辑斯蒂回归中加入随机效应的方式。

发现

首先是作者的猜测。正答率为53%（812次试行中430次），与偶然（50%）在统计上没有显著差异（双侧二项检验 p = .099，95%置信区间 [49.5%, 56.4%]，出处：4.1节）。将人类制作误判为 AI 的比率为26.6%，将 AI 误判为人类制作的比率为26.3%，近乎对称——玩家无法判断作者。

体验的评价更为鲜明。按实际作者区分时差异不大，但按「玩家所相信的作者」区分时差异显著。越相信是人类制作的关卡，乐趣评价越高（信念的效应 beta = 1.54，z = 9.52，p < .001），外观质量评价也更高（z = 10.480，p < .001）。相反，越相信是 AI 制作的关卡，烦躁感越强（beta = -1.17，z = -7.445，p < .001），难度评价也更高（z = -2.41，p < .015）。乐趣方面「感觉是AI」组为2.92，「感觉是人类」组为3.72；烦躁感方面为3.60对2.84；外观方面为2.70对3.57（5分制）。

收集判断「依据」的自由记述分析（评价者间一致度 Cohen's kappa 平均为0.76）也很有趣。玩家使用了体验的手感・布局的一致性・可达性・设计意图的感知・与已知游戏的比较，以及「AI 会这样做」的成见等线索。但作者强调的是，同样的线索被用于得出截然相反的结论。在同一位置放置产卵点旁边的敌人这一相同装置，对某人来说是「人类故意制作的证据」，对另一人来说是「人类不会这样做=AI 的证据」。

最后是对 PCG 和生成 AI 的态度。两者的评价分布在统计上明显不同（chi2(16) = 473.71，p < .001），对生成 AI 的评价更为负面。对生成 AI 持肯定态度的人，乐趣评分更高（z = 3.247，p = .0011），外观评分也更高（z = 2.391，p = .0168）。在自由记述中，相较于对基于规则的可控 PCG 的信任，对生成 AI 则聚集着不可预测性・易错性・学习数据的伦理・环境负荷・对就业的影响等忧虑。

应用场景

那么，制作游戏和谜题的人能如何运用这一结果？前提是，这是一项观察研究，并非断言「让人以为是 AI 就必然变得无聊」的论文。在这一保留的前提下，我（Fukai）考虑了以下用法。

第一，如果自己在为 Sokoban-like 的谜题进行自动生成——应将「被认为是 AI 制作瞬间评价就会下降」的风险作为设计上的变量来处理。在本论文中，被认为是 AI 的关卡，在乐趣・外观上被评为低一档，在烦躁感上被评为高一档。即使是同样的盘面，呈现方式和标签措辞也可能影响体验评分。

第二，如果在超休闲或探索型游戏中以 PCG 为卖点——在论文的自由记述中，基于规则的 PCG 被相对友好地视为「可控且可信」，而生成 AI 则被一概以「AI」标签产生防备。如果要公示，比起「使用了/没有使用 AI」的二选一，具体说明在哪里・为何使用的 nuanced disclosure（细致的公示）更能避免因误解而被扣分。

第三，要注意对难度校准的解读。当玩家报告「难」「令人恼火」时，究竟是盘面的客观难度，还是「因为以为是AI制作而用更严苛的眼光来看」，在本研究中无法区分。如果自己在用 A/B 对难度进行调整，插入一个怀疑是否混入了对作者的成见的步骤，能让数据的解读更不容易出错。

局限性

从作者自身承认的弱点开始。第一，题材只有两部短小的 2D 格子游戏，能否推广至其他类型或长时间游玩尚不清楚。第二，体验指标是各1项5分制评价，精度不及 GEQ 或 GUESS 等已有的多项目量表。第三，参与者以一般在线用户为主，熟练的关卡设计师较少。第四——设计是观察性的，无法言及因果。「是因为以为是 AI 才找毛病」，还是「因为感到烦恼才推测是 AI」，方向无法确定。

Fukai 在这里补充两点。一是将 AI 生成关卡限定于「可通关且外观无破绽」的设计含意——有意回避了「现场有破绽的生成物较多」的现实。另一点是参与者仅限于美国・英语使用者・成人。对 AI 的态度因文化和世代可能大相径庭，因此将「对生成 AI 的负面态度」这一结果直接带入其他地区时应谨慎。

Fukai 的解读

以下是我（Fukai）的解读。我想将这项研究置于 PCG 研究的重心从「品质的自动化」向「信任的设计」转移的潮流之中。迄今为止的图灵测试型研究一直在竞争「能否制作出与人类难以区分的输出」。但这篇论文所揭示的，可以解读为：即便在难以区分之后，玩家头脑中的「作者形象」仍持续给体验着色。用设计批评的词汇来说，这不是生成器性能的问题，而是呈现与公示这一「元设计层」的问题。

拓展阅读

想深入了解的人。与本论文作为基础的经典一并阅读，包括以难以区分本身作为评价轴的早期 Sokoban 研究，以及处理 Mario 玩家可信度的 Camilleri 等人（2016年）。Denisova 与 Cairns 的「虚假适应性 AI」研究（CHI PLAY 2015）作为出发点易于理解。从经济学方面来看，「柠檬市场」讨论（Akerlof）成为本论文 lemons dynamic 这一见解的基础。

参考文献

DOI: 10.1145/3772318.3790473 (CHI 26, peer-reviewed)

The Placebo Effect in Digital Games (Denisova & Cairns, 2015, CHI PLAY)

Sturgeon: tile-based procedural level generation (Cooper, 2022, AIIDE)

Reactions (no login)

Anonymous • one of each per visitor per day