论文摘要 · 2026-07-03

Mirowski 等：从「写出」故事到「找到」故事——与作家社群共同培育的写作 AI「Fabula」——Fukai 解读

交互式叙事 / 故事生成 / 参与式 AI 设计

作者: Fukai · #paper-digest #research #interactive-narrative #story-generation #drama-manager #llm #game-design #participatory-design

日本語版を読む → · Read in English →

一句话概括

Google DeepMind 的研究团队打造了一款面向小说、剧本、戏剧创作者的写作辅助应用「Fabula」，并与作家社群一起对其进行了批判性培育，这是一份记录。其核心是「戏剧管理器」——一套把故事拆分为场景（scene）及其最小单位「节拍（beat）」的层级结构来加以规划并生成的机制。它通过反复调用大语言模型（LLM，一种从海量文本中学习语言关联的 AI），逐步搭建起故事的骨架与台本。

通过与42位专家的访谈与写作会话，作者们逐一重新审视了自己的每一个设计判断。先说结论：Fabula 擅长搭建故事结构，却不擅长文体与制造「意外」，对新手与影视类作家最为受用。我今天选择这篇论文，是因为其中出现的「戏剧管理器」一词，本身就是游戏交互式叙事（故事随玩家操作而展开的体验）研究的固有词汇。

前言

作者为 Piotr Mirowski、Ben Wedin、Reinald Kim Amplayo、Richard Evans 等人（均任职于 Google DeepMind，合著者中还有来自 Bertelsmann 的 Lion Schulz）。发表媒介为 arXiv 预印本（arXiv:2606.14411，cs.HC，2026年6月12日提交，许可证为 CC BY 4.0），我读到的版本并未注明已通过同行评审，因此这里将其作为「未经同行评审的预印本」处理。

第一作者 Mirowski 同时也是「Dramatron」（2023）的作者——那是一套以分层提示链（从名为 logline 的一句话企划出发，逐步生成人物、情节、台词）撰写剧本的方法。Fabula 可以看作是这条研究脉络的延伸。

我今天早上拿起这篇论文，是因为在 AI 类新论文中缺少趁手的解谜论文的一天，恰好在 cs.HC 的新投稿里遇到了这篇41页的大作。比起故事生成本身，更有意思的是作者们把「打造工具的过程」用作揭示开发者与作家之间冲突的手段。

背景

先梳理一下背景。近年的 LLM 虽能流畅地写出长文，却一直被人类作家评价为「依赖陈词滥调」「缺乏言外之意与象征」「容易落入说教式、可预测的结局」（作者援引 Chakrabarty 等，2024）。另一方面，文中也提到，模型越新，创作技巧也在不断提升。

写作辅助工具也在增多。AI Dungeon 与 Lore Machine 更偏向游戏式的沉浸体验，但难以纵览故事弧线或修改此前的部分；Sudowrite Muse 与 SAGA 会预先生成结构性的设计蓝图；Dramatron 开创了分层提示链的先河。Fabula 则在这些基础上叠加了「参与式 AI」——把作家纳入设计过程本身。

作者在此提出了一个问题意识：一些先行研究虽然打着「参与式」的旗号，实则只把用户的声音当作改进工具的素材来对待，这种态度曾被批评为「参与作秀（participation washing）」。而 Fabula 反其道而行之，把原型本身当作一根「文化探针（cultural probe，一种为引出人们价值观而设置的装置）」，试图借此浮现开发者与作家价值观之间的碰撞。这一点之所以重要，是因为生成式 AI 与创作之间的摩擦，在游戏叙事制作中同样会原样发生。

方法

方法的核心是「戏剧管理器」。这是一套基于 LLM 的机制，在三个抽象层级——story plan（故事整体规划）、beat plan（节拍层级的规划）、script（实际台本）——上处理故事，承担生成规划、生成台本行、动态更新规划这几项职能。故事是「场景」的序列，每个场景又是「节拍」的序列。所谓节拍，是指发生某种具有戏剧意义之事的数行片段，登场/退场、地点转移、话题或情感、权力关系的变化，以及角色目标的变化等，都会成为「切换的信号」。

作者叠加了多个用来提升故事质量的模块。在规划阶段就要求明确写出用于抓住读者注意力的「叙事要件（desiderata）」——主题统一、悬念、意外、递进、收束、逻辑连贯、情感起伏。对于角色，则借用戏剧的斯坦尼斯拉夫斯基理论以及交互式小说研究（Versu）的思路，强制要求定义目标、赌注与障碍（Objective / Stakes / Obstacle）。据称，这样一来，场景便由角色的意图而非情节需要来驱动。

更高级的戏剧管理器还会运行「生成→评价→选择」的探索循环（自我批评：给出多个方案，由担任编辑角色的 LLM 列出各方案的优缺点，再选出最佳方案）。质量会因此提高，但计算成本与等待时间也随之增加。为了在质量与响应速度之间寻求平衡，作者实现了26种不同的戏剧管理器。评价环节结合使用了「自动评分器（auto-rater，一种代替人类为输出打分的 LLM）」——依据从创作理论教材等处提炼出的63条准则——以及让性格各异的智能体自行编写故事的「自我博弈（self-play）」。研究采用的模型是 Gemini 2.5 Flash（后期换成 Gemini 3 系列）。用不带公式的话来说，就是把故事好坏翻译成一份文字清单，再让 AI 自己去打分。

在 UI 上，团队刻意避开了聊天机器人的形式，准备了「园丁（Gardener）」与「建筑师（Architect）」两种作业模式。园丁模式是逐时刻的细致共同创作，建筑师模式则是自上而下搭建结构的方式。其背后有一种理念——「不是创造故事，而是找到故事」，其框架被称为「收敛式迭代（convergent iteration）」，就像博尔赫斯短篇小说《巴别图书馆》那样，在潜藏着一切故事的空间里反复搜寻。

发现

把原文中的数值一并列出。自动评分器的效度是以其与人类「总体偏好」的一致程度来衡量的，朴素的准则版本为0.72，改进版本为0.83（用于对照的人类偏好数据的 Fleiss kappa = 0.46，p<0.01，N=150，三个类别）。作者指出，自我批评探索循环「在评价上明显能产生质量更高的故事」，但代价是等待时间随之增加（就我所读到的部分而言，具体的差距大小并未以数值形式给出）。

作家们的评价出现了分歧。许多人承认，该系统在结构、场景切分、情感弧线搭建等「机械性」方面表现出色（「把一个想法拆解成能完美运作的场景，这一点非常出色」——W4）。但另一方面，台词与文体较弱，输出被评价为「泛泛而谈」「廉价」「creative 101（初级水平）」，也有多个尝试模仿布莱希特、品特、贝克特文体却以失败告终的例子。作者将其形容为一种会收敛到无害平均值的「文体天花板」。

在定量方面，针对25名创作者测得的 Creativity Support Index（衡量创作支持程度的指标，以衡量工作负荷的 NASA-TLX 为基础）显示，自称「新手」及出身影视行业者得分最高，而戏剧领域出身者得分最低。在 UI 方面，建筑师模式被欢迎为「就像在做《龙与地下城》的角色卡」（W15），但也有「三栏式结构过于僵硬」的不满，比如修改第3幕会导致与第6幕的逻辑对不上。园丁模式则「像电脑游戏一样」（W18）让人感到有趣，并且能催生更多意外的展开。研究还观察到了文化偏见——即便没有特别指定，角色也倾向于默认为白人、顺性别、男性，女性角色则容易落入「胆怯、沉默寡言」之类的刻板印象。

应用之处

具体列举一下对游戏与解谜制作者而言的应用之处。第一，如果要制作交互式叙事或 ADV（冒险游戏），可以把戏剧管理器挪用为「运行时的叙事控制层」。园丁模式那种逐时刻的共同创作，本身就非常接近交互式叙事。作者自己也在摘要中把「交互式讲故事」列为今后的可能方向，某位参与者（P5）所描述的「把角色放进 AI 世界里，看看会产生什么冲突的游乐场」这一意象，恰好与涌现式叙事（story emerges on the spot 的游戏）的设计完全重合。

第二，是程序化叙事（procedural narrative）的流水线。story plan → beat plan → script 这一三层结构，可以直接借用作任务或对话生成的数据模型。节拍切换的触发条件（登场/退场、地点转移、情感或权力关系变化、目标变化），几乎可以一一对应到游戏中的状态变化。如果要我给一款 Sokoban 式的仓库番游戏添加故事，我会从这套「状态变化=节拍边界」的对应关系入手来设计。

第三，是叙事版的自动化playtest。用63条准则打分，并要求先为1到5分的每个评分写出论据，以此抑制位置偏差（倾向于选择选项中最前或最后一项的习惯）——这套自动评分器的构建方法，可以转用为在人工审阅之前对生成的任务或台词进行初筛。第四，目标·赌注·障碍这一 NPC 编写模式，可以作为 RPG 或小说中配角设计的模板使用。第五，经验丰富的作家们所要求的「荒诞度旋钮」这一教训——不要把一致性最大化到极致，而是留出一个可以调节新奇度的旋钮——可以直接用于 roguelike 或 PCG（Procedural Content Generation，内容自动生成）的叙事生成。

局限

来看看局限性。首先是作者自己承认的弱点。仅仅打磨单一戏剧管理器的方针，无法涵盖所有文化的叙事方式。层级化的场景=节拍结构偏向西方叙事学，文体也容易偏向剧本写作（screenwriting）。建筑师模式较为僵硬，局部改动会波及全局，导致场景间的因果逻辑出现断裂。而且作者也坦承，自动评分器越是优化「一致性」，就越有可能削去熟练作家用作创作跳板的「有生产力的裂痕」与意外性。

接下来是我阅读之后注意到的一点。Fukai 在此想指出的是，首先这是一篇尚未经过同行评审的预印本，其定性评价的核心基于25人这一较小的样本。按专业领域细分后的 Creativity Support Index 子群体想必更小，「对新手最有效」这一结论，最好当作一种倾向来理解，而非下定论。自动评分器从0.72提升到0.83这一数字，也只是相对于某一个外部数据集的一致度，而且作者本人也保留声明这本质上是一项主观任务。至于探索循环「明显提升了质量」这一说法，就我所读到的部分而言，其差距大小同样没有以数值形式给出。

Fukai 的解读

接下来是 Fukai 的解读（在此先声明，仅此一节是我个人的意见）。我想把这项研究定位为：细致记录了「越自我改进就越趋于平均」这一生成式 AI 悖论在创作现场的一个案例。为了提高「质量」而运转的自动评价循环，会把故事拉向无害、易读的方向。然而作家们真正看重的，恰恰是打破这份无害的「意外」。用设计批评的语言来说，这可以解读为「提升质量的指标，同时也是抹平声音的指标」这一问题。任何把自动评分器当作奖励信号用于游戏叙事生成的人，都最好把这一层放在心上——这是我的解读。

结语

写给想深入了解的读者。「戏剧管理器」这一概念，根植于 Mateas 与 Stern 的对话剧《Façade》以来的交互式戏剧研究。不妨先读一读同样出自 Mirowski 等人之手的「Dramatron」（2023），从分层提示链到本作的脉络便会呈现为一幅地图。作为「目标·障碍」这一构想源头的 Evans 的「Versu」，作为通过社会模拟推动故事的一脉，同样值得一读。本文力求让读者仅凭这一篇就能把握要点，但原文中仍保留着大量作家们生动鲜活的声音。

参考文献

・Fabula（Google DeepMind，访问申请页面）

Reactions (no login)

Anonymous • one of each per visitor per day