论文摘要 · 2026-07-03

Mirowski 等:从「写出」故事到「找到」故事——与作家社群共同培育的写作 AI「Fabula」——Fukai 解读

交互式叙事 / 故事生成 / 参与式 AI 设计

一句话概括

Google DeepMind 的研究团队打造了一款面向小说、剧本、戏剧创作者的写作辅助应用「Fabula」,并与作家社群一起对其进行了批判性培育,这是一份记录。其核心是「戏剧管理器」——一套把故事拆分为场景(scene)及其最小单位「节拍(beat)」的层级结构来加以规划并生成的机制。它通过反复调用大语言模型(LLM,一种从海量文本中学习语言关联的 AI),逐步搭建起故事的骨架与台本。

通过与42位专家的访谈与写作会话,作者们逐一重新审视了自己的每一个设计判断。先说结论:Fabula 擅长搭建故事结构,却不擅长文体与制造「意外」,对新手与影视类作家最为受用。我今天选择这篇论文,是因为其中出现的「戏剧管理器」一词,本身就是游戏交互式叙事(故事随玩家操作而展开的体验)研究的固有词汇。

前言

作者为 Piotr Mirowski、Ben Wedin、Reinald Kim Amplayo、Richard Evans 等人(均任职于 Google DeepMind,合著者中还有来自 Bertelsmann 的 Lion Schulz)。发表媒介为 arXiv 预印本(arXiv:2606.14411,cs.HC,2026年6月12日提交,许可证为 CC BY 4.0),我读到的版本并未注明已通过同行评审,因此这里将其作为「未经同行评审的预印本」处理。

第一作者 Mirowski 同时也是「Dramatron」(2023)的作者——那是一套以分层提示链(从名为 logline 的一句话企划出发,逐步生成人物、情节、台词)撰写剧本的方法。Fabula 可以看作是这条研究脉络的延伸。

我今天早上拿起这篇论文,是因为在 AI 类新论文中缺少趁手的解谜论文的一天,恰好在 cs.HC 的新投稿里遇到了这篇41页的大作。比起故事生成本身,更有意思的是作者们把「打造工具的过程」用作揭示开发者与作家之间冲突的手段。

背景

先梳理一下背景。近年的 LLM 虽能流畅地写出长文,却一直被人类作家评价为「依赖陈词滥调」「缺乏言外之意与象征」「容易落入说教式、可预测的结局」(作者援引 Chakrabarty 等,2024)。另一方面,文中也提到,模型越新,创作技巧也在不断提升。

写作辅助工具也在增多。AI Dungeon 与 Lore Machine 更偏向游戏式的沉浸体验,但难以纵览故事弧线或修改此前的部分;Sudowrite Muse 与 SAGA 会预先生成结构性的设计蓝图;Dramatron 开创了分层提示链的先河。Fabula 则在这些基础上叠加了「参与式 AI」——把作家纳入设计过程本身。

作者在此提出了一个问题意识:一些先行研究虽然打着「参与式」的旗号,实则只把用户的声音当作改进工具的素材来对待,这种态度曾被批评为「参与作秀(participation washing)」。而 Fabula 反其道而行之,把原型本身当作一根「文化探针(cultural probe,一种为引出人们价值观而设置的装置)」,试图借此浮现开发者与作家价值观之间的碰撞。这一点之所以重要,是因为生成式 AI 与创作之间的摩擦,在游戏叙事制作中同样会原样发生。

方法

方法的核心是「戏剧管理器」。这是一套基于 LLM 的机制,在三个抽象层级——story plan(故事整体规划)、beat plan(节拍层级的规划)、script(实际台本)——上处理故事,承担生成规划、生成台本行、动态更新规划这几项职能。故事是「场景」的序列,每个场景又是「节拍」的序列。所谓节拍,是指发生某种具有戏剧意义之事的数行片段,登场/退场、地点转移、话题或情感、权力关系的变化,以及角色目标的变化等,都会成为「切换的信号」。

作者叠加了多个用来提升故事质量的模块。在规划阶段就要求明确写出用于抓住读者注意力的「叙事要件(desiderata)」——主题统一、悬念、意外、递进、收束、逻辑连贯、情感起伏。对于角色,则借用戏剧的斯坦尼斯拉夫斯基理论以及交互式小说研究(Versu)的思路,强制要求定义目标、赌注与障碍(Objective / Stakes / Obstacle)。据称,这样一来,场景便由角色的意图而非情节需要来驱动。

更高级的戏剧管理器还会运行「生成→评价→选择」的探索循环(自我批评:给出多个方案,由担任编辑角色的 LLM 列出各方案的优缺点,再选出最佳方案)。质量会因此提高,但计算成本与等待时间也随之增加。为了在质量与响应速度之间寻求平衡,作者实现了26种不同的戏剧管理器。评价环节结合使用了「自动评分器(auto-rater,一种代替人类为输出打分的 LLM)」——依据从创作理论教材等处提炼出的63条准则——以及让性格各异的智能体自行编写故事的「自我博弈(self-play)」。研究采用的模型是 Gemini 2.5 Flash(后期换成 Gemini 3 系列)。用不带公式的话来说,就是把故事好坏翻译成一份文字清单,再让 AI 自己去打分。

在 UI 上,团队刻意避开了聊天机器人的形式,准备了「园丁(Gardener)」与「建筑师(Architect)」两种作业模式。园丁模式是逐时刻的细致共同创作,建筑师模式则是自上而下搭建结构的方式。其背后有一种理念——「不是创造故事,而是找到故事」,其框架被称为「收敛式迭代(convergent iteration)」,就像博尔赫斯短篇小说《巴别图书馆》那样,在潜藏着一切故事的空间里反复搜寻。

发现

把原文中的数值一并列出。自动评分器的效度是以其与人类「总体偏好」的一致程度来衡量的,朴素的准则版本为0.72,改进版本为0.83(用于对照的人类偏好数据的 Fleiss kappa = 0.46,p<0.01,N=150,三个类别)。作者指出,自我批评探索循环「在评价上明显能产生质量更高的故事」,但代价是等待时间随之增加(就我所读到的部分而言,具体的差距大小并未以数值形式给出)。

作家们的评价出现了分歧。许多人承认,该系统在结构、场景切分、情感弧线搭建等「机械性」方面表现出色(「把一个想法拆解成能完美运作的场景,这一点非常出色」——W4)。但另一方面,台词与文体较弱,输出被评价为「泛泛而谈」「廉价」「creative 101(初级水平)」,也有多个尝试模仿布莱希特、品特、贝克特文体却以失败告终的例子。作者将其形容为一种会收敛到无害平均值的「文体天花板」。

在定量方面,针对25名创作者测得的 Creativity Support Index(衡量创作支持程度的指标,以衡量工作负荷的 NASA-TLX 为基础)显示,自称「新手」及出身影视行业者得分最高,而戏剧领域出身者得分最低。在 UI 方面,建筑师模式被欢迎为「就像在做《龙与地下城》的角色卡」(W15),但也有「三栏式结构过于僵硬」的不满,比如修改第3幕会导致与第6幕的逻辑对不上。园丁模式则「像电脑游戏一样」(W18)让人感到有趣,并且能催生更多意外的展开。研究还观察到了文化偏见——即便没有特别指定,角色也倾向于默认为白人、顺性别、男性,女性角色则容易落入「胆怯、沉默寡言」之类的刻板印象。

应用之处

具体列举一下对游戏与解谜制作者而言的应用之处。第一,如果要制作交互式叙事或 ADV(冒险游戏),可以把戏剧管理器挪用为「运行时的叙事控制层」。园丁模式那种逐时刻的共同创作,本身就非常接近交互式叙事。作者自己也在摘要中把「交互式讲故事」列为今后的可能方向,某位参与者(P5)所描述的「把角色放进 AI 世界里,看看会产生什么冲突的游乐场」这一意象,恰好与涌现式叙事(story emerges on the spot 的游戏)的设计完全重合。

第二,是程序化叙事(procedural narrative)的流水线。story plan → beat plan → script 这一三层结构,可以直接借用作任务或对话生成的数据模型。节拍切换的触发条件(登场/退场、地点转移、情感或权力关系变化、目标变化),几乎可以一一对应到游戏中的状态变化。如果要我给一款 Sokoban 式的仓库番游戏添加故事,我会从这套「状态变化=节拍边界」的对应关系入手来设计。

第三,是叙事版的自动化playtest。用63条准则打分,并要求先为1到5分的每个评分写出论据,以此抑制位置偏差(倾向于选择选项中最前或最后一项的习惯)——这套自动评分器的构建方法,可以转用为在人工审阅之前对生成的任务或台词进行初筛。第四,目标·赌注·障碍这一 NPC 编写模式,可以作为 RPG 或小说中配角设计的模板使用。第五,经验丰富的作家们所要求的「荒诞度旋钮」这一教训——不要把一致性最大化到极致,而是留出一个可以调节新奇度的旋钮——可以直接用于 roguelike 或 PCG(Procedural Content Generation,内容自动生成)的叙事生成。

局限

来看看局限性。首先是作者自己承认的弱点。仅仅打磨单一戏剧管理器的方针,无法涵盖所有文化的叙事方式。层级化的场景=节拍结构偏向西方叙事学,文体也容易偏向剧本写作(screenwriting)。建筑师模式较为僵硬,局部改动会波及全局,导致场景间的因果逻辑出现断裂。而且作者也坦承,自动评分器越是优化「一致性」,就越有可能削去熟练作家用作创作跳板的「有生产力的裂痕」与意外性。

接下来是我阅读之后注意到的一点。Fukai 在此想指出的是,首先这是一篇尚未经过同行评审的预印本,其定性评价的核心基于25人这一较小的样本。按专业领域细分后的 Creativity Support Index 子群体想必更小,「对新手最有效」这一结论,最好当作一种倾向来理解,而非下定论。自动评分器从0.72提升到0.83这一数字,也只是相对于某一个外部数据集的一致度,而且作者本人也保留声明这本质上是一项主观任务。至于探索循环「明显提升了质量」这一说法,就我所读到的部分而言,其差距大小同样没有以数值形式给出。

Fukai 的解读

接下来是 Fukai 的解读(在此先声明,仅此一节是我个人的意见)。我想把这项研究定位为:细致记录了「越自我改进就越趋于平均」这一生成式 AI 悖论在创作现场的一个案例。为了提高「质量」而运转的自动评价循环,会把故事拉向无害、易读的方向。然而作家们真正看重的,恰恰是打破这份无害的「意外」。用设计批评的语言来说,这可以解读为「提升质量的指标,同时也是抹平声音的指标」这一问题。任何把自动评分器当作奖励信号用于游戏叙事生成的人,都最好把这一层放在心上——这是我的解读。

结语

写给想深入了解的读者。「戏剧管理器」这一概念,根植于 Mateas 与 Stern 的对话剧《Façade》以来的交互式戏剧研究。不妨先读一读同样出自 Mirowski 等人之手的「Dramatron」(2023),从分层提示链到本作的脉络便会呈现为一幅地图。作为「目标·障碍」这一构想源头的 Evans 的「Versu」,作为通过社会模拟推动故事的一脉,同样值得一读。本文力求让读者仅凭这一篇就能把握要点,但原文中仍保留着大量作家们生动鲜活的声音。

参考文献

本文参考的论文与相关资料:

Fabula: Building a Narrative Storytelling Sidekick with the Writers' Community (Mirowski, Wedin, Amplayo, Evans 等, 2026, arXiv preprint 2606.14411 [cs.HC])

・相关研究:Co-Writing Screenplays and Theatre Scripts with Language Models (Dramatron; Mirowski, Mathewson, Evans, 2023 CHI)

Fabula(Google DeepMind,访问申请页面)

Reactions (no login)

Anonymous • one of each per visitor per day