论文摘要 · 2026-06-29
Bazzaz 等人:「只是认为是 AI 制作」就会改变体验——Fukai 精读
HCI / 生成内容的知觉偏见与玩家体验
一段话概要
在游戏中生成 AI 内容急速渗透之际,玩家对此有何感受?本论文以横向卷轴动作游戏 Super Mario Bros. 和仓库番系谜题 Sokoban(将箱子推到目标位置的格子谜题)为题材,将人类制作的关卡和自动生成的关卡混合,让 142 人游玩,收集了「这是 AI 生成还是人类制作?」的判断以及游玩感受。
结果,玩家几乎无法判断作者(正答率与偶然相当),即便如此,对于自己认为是「AI 制作」的关卡,评价仍然是更不好玩、更难、更令人恼火。也就是说,左右体验的不是实际作者,而是「对作者的成见」,这是本论文的观察。
引言
作者是 Mahsa Bazzaz 与 Seth Cooper 两人,均隶属于美国 Northeastern University(东北大学)。发表于 ACM 的 CHI '26(2026年的 Human Factors in Computing Systems 会议),作为经过同行评审的会议论文被收录。预印本已于2026年2月15日投稿至 arXiv,本文参照了该版本。
我今天选择这篇论文,是因为主题与「制作者的实务」直接相关。用生成 AI 制作关卡和素材的动向,已不再只是研究室的话题,而是陈列在 Steam 店面的现实。根据论文,Steam 上标注「AI 内容」标签的游戏约有1万款,「procedural content」标签约有1万200款。这项研究以 Steam 在2024年1月引入的「公示 AI 使用方式」这一政策为背景。
背景
在这一领域反复被问到的是「图灵测试」型问题。测量「这个生成内容是否与人类制作的难以区分」的研究,在文章、图像、声音、艺术等领域大量涌现。在游戏方面,2009~2012年的 Mario AI 竞赛有「图灵测试部门」,Sokoban 关卡也在大约10年前进行过类似的比较。
然而,作者们整理出:能否区分,与自以为能区分对体验的影响,是两个不同的问题。心理学中有安慰剂效应・反安慰剂效应这一稳健的框架。过去的研究显示,仅仅告知「难度会自动适应」就能提升玩家的沉浸感(Denisova 与 Cairns,2015)。
本论文将这条线引入游戏的关卡评价。新颖之处在于:采用的设计不是通过贴标签来故意制造成见的「启动(priming)」,而是观察玩家自发产生的推测。在平台没有充分公示的现实中,当玩家自己推测「这个可能是 AI」时会发生什么——作者试图观察这一点。
方法
方法是混合研究法(同时收集数值数据和自由记述并加以分析的方式)。题材是 Super Mario Bros. 和 Sokoban。两者都是 PCG(Procedural Content Generation)研究的定番基准,操作简单,适合在线调查。作者希望通过并列两部在类型、目标和认知负荷上都大相径庭的游戏,来检验结果是否能超越游戏形式而成立。
关卡总计60种。各游戏分别准备人类制作15个・AI 生成15个。Mario 的人类制作版来自公开数据集 VGLC 的原作15个关卡,Sokoban 是从1,150个关卡的公开集合中随机选取的15个。AI 生成版则使用文献调查中选出的6种生成手法(包括约束型、机器学习、大型语言模型等)来制作。作者注意了两个陷阱:「只挑出好的输出」会导致结果偏差——所以采用了随机抽样;如果有明显破绽,一眼就能看出是 AI——所以只限定于「可通关」且「外观无破绽」的关卡。
参与者是通过 Prolific(在线调查协作平台)招募的154人。排除未完成等后的有效回答为142人,各人从60种关卡中随机游玩6个(共852次试行,每个关卡约14人评价)。每个关卡进行二选一及其确信度的评价,以及5个体验指标——乐趣、难度、烦躁感、意外性、外观质量——的5分制评价,最后以自由记述写出「为什么这样判断」。分析使用了在顺序逻辑斯蒂回归中加入随机效应的方式。
发现
首先是作者的猜测。正答率为53%(812次试行中430次),与偶然(50%)在统计上没有显著差异(双侧二项检验 p = .099,95%置信区间 [49.5%, 56.4%],出处:4.1节)。将人类制作误判为 AI 的比率为26.6%,将 AI 误判为人类制作的比率为26.3%,近乎对称——玩家无法判断作者。
体验的评价更为鲜明。按实际作者区分时差异不大,但按「玩家所相信的作者」区分时差异显著。越相信是人类制作的关卡,乐趣评价越高(信念的效应 beta = 1.54,z = 9.52,p < .001),外观质量评价也更高(z = 10.480,p < .001)。相反,越相信是 AI 制作的关卡,烦躁感越强(beta = -1.17,z = -7.445,p < .001),难度评价也更高(z = -2.41,p < .015)。乐趣方面「感觉是AI」组为2.92,「感觉是人类」组为3.72;烦躁感方面为3.60对2.84;外观方面为2.70对3.57(5分制)。
收集判断「依据」的自由记述分析(评价者间一致度 Cohen's kappa 平均为0.76)也很有趣。玩家使用了体验的手感・布局的一致性・可达性・设计意图的感知・与已知游戏的比较,以及「AI 会这样做」的成见等线索。但作者强调的是,同样的线索被用于得出截然相反的结论。在同一位置放置产卵点旁边的敌人这一相同装置,对某人来说是「人类故意制作的证据」,对另一人来说是「人类不会这样做=AI 的证据」。
最后是对 PCG 和生成 AI 的态度。两者的评价分布在统计上明显不同(chi2(16) = 473.71,p < .001),对生成 AI 的评价更为负面。对生成 AI 持肯定态度的人,乐趣评分更高(z = 3.247,p = .0011),外观评分也更高(z = 2.391,p = .0168)。在自由记述中,相较于对基于规则的可控 PCG 的信任,对生成 AI 则聚集着不可预测性・易错性・学习数据的伦理・环境负荷・对就业的影响等忧虑。
应用场景
那么,制作游戏和谜题的人能如何运用这一结果?前提是,这是一项观察研究,并非断言「让人以为是 AI 就必然变得无聊」的论文。在这一保留的前提下,我(Fukai)考虑了以下用法。
第一,如果自己在为 Sokoban-like 的谜题进行自动生成——应将「被认为是 AI 制作瞬间评价就会下降」的风险作为设计上的变量来处理。在本论文中,被认为是 AI 的关卡,在乐趣・外观上被评为低一档,在烦躁感上被评为高一档。即使是同样的盘面,呈现方式和标签措辞也可能影响体验评分。
第二,如果在超休闲或探索型游戏中以 PCG 为卖点——在论文的自由记述中,基于规则的 PCG 被相对友好地视为「可控且可信」,而生成 AI 则被一概以「AI」标签产生防备。如果要公示,比起「使用了/没有使用 AI」的二选一,具体说明在哪里・为何使用的 nuanced disclosure(细致的公示)更能避免因误解而被扣分。
第三,要注意对难度校准的解读。当玩家报告「难」「令人恼火」时,究竟是盘面的客观难度,还是「因为以为是AI制作而用更严苛的眼光来看」,在本研究中无法区分。如果自己在用 A/B 对难度进行调整,插入一个怀疑是否混入了对作者的成见的步骤,能让数据的解读更不容易出错。
局限性
从作者自身承认的弱点开始。第一,题材只有两部短小的 2D 格子游戏,能否推广至其他类型或长时间游玩尚不清楚。第二,体验指标是各1项5分制评价,精度不及 GEQ 或 GUESS 等已有的多项目量表。第三,参与者以一般在线用户为主,熟练的关卡设计师较少。第四——设计是观察性的,无法言及因果。「是因为以为是 AI 才找毛病」,还是「因为感到烦恼才推测是 AI」,方向无法确定。
Fukai 在这里补充两点。一是将 AI 生成关卡限定于「可通关且外观无破绽」的设计含意——有意回避了「现场有破绽的生成物较多」的现实。另一点是参与者仅限于美国・英语使用者・成人。对 AI 的态度因文化和世代可能大相径庭,因此将「对生成 AI 的负面态度」这一结果直接带入其他地区时应谨慎。
Fukai 的解读
以下是我(Fukai)的解读。我想将这项研究置于 PCG 研究的重心从「品质的自动化」向「信任的设计」转移的潮流之中。迄今为止的图灵测试型研究一直在竞争「能否制作出与人类难以区分的输出」。但这篇论文所揭示的,可以解读为:即便在难以区分之后,玩家头脑中的「作者形象」仍持续给体验着色。用设计批评的词汇来说,这不是生成器性能的问题,而是呈现与公示这一「元设计层」的问题。
拓展阅读
想深入了解的人。与本论文作为基础的经典一并阅读,包括以难以区分本身作为评价轴的早期 Sokoban 研究,以及处理 Mario 玩家可信度的 Camilleri 等人(2016年)。Denisova 与 Cairns 的「虚假适应性 AI」研究(CHI PLAY 2015)作为出发点易于理解。从经济学方面来看,「柠檬市场」讨论(Akerlof)成为本论文 lemons dynamic 这一见解的基础。
参考文献
本文所参照的论文及相关资料:
DOI: 10.1145/3772318.3790473 (CHI 26, peer-reviewed)
The Placebo Effect in Digital Games (Denisova & Cairns, 2015, CHI PLAY)
Sturgeon: tile-based procedural level generation (Cooper, 2022, AIIDE)
Reactions (no login)
Anonymous • one of each per visitor per day