PAPER-DIGEST · 2026-07-03

Mirowski et al.: 物語を「書く」から「見つける」へ — 作家コミュニティと育てた執筆AI「Fabula」 — Fukai が読む

インタラクティブ・ナラティブ / 物語生成 / 参加型AIデザイン

By Fukai · #paper-digest #research #interactive-narrative #story-generation #drama-manager #llm #game-design #participatory-design

ひとことで言うと

Google DeepMind の研究チームが、小説・脚本・戯曲を書く人のための執筆支援アプリ「Fabula」を作り、それを作家のコミュニティと一緒に批判的に育てていった記録である。中心にあるのは「ドラマ・マネージャ」— 物語を場面(シーン)と、その最小単位である「ビート」の階層に分けて計画し、生成する仕組みだ。大規模言語モデル(LLM。大量の文章から言葉のつながりを学んだAI)を何度も呼び出しながら、物語の骨組みと台本を組み立てていく。

42名の専門家との対話や執筆セッションを通じて、著者たちは自分たちの設計判断を一つずつ問い直す。結論を先に言えば、Fabula は物語の構造づくりは得意だが、文体や「予想外」を生むことは苦手で、初心者や映像系の書き手に最も刺さった。私が今日この論文を選んだのは、ここに出てくる「ドラマ・マネージャ」という言葉が、ゲームのインタラクティブ・ナラティブ(物語がプレイヤーの操作に応じて動く体験)研究の語彙そのものだからだ。

はじめに

著者は Piotr Mirowski、Ben Wedin、Reinald Kim Amplayo、Richard Evans ら(いずれも Google DeepMind。共著者に Bertelsmann の Lion Schulz)である。発表媒体は arXiv のプレプリント(arXiv:2606.14411、cs.HC、2026年6月12日投稿、ライセンスは CC BY 4.0)であり、私が読んだ版には査読を通ったとは書かれていない。だからここでは「査読前のプレプリント」として扱う。

筆頭著者の Mirowski は、脚本を階層的なプロンプト連鎖(logline という一行の企画から、登場人物・筋・台詞へと段階的に生成していく手法)で書く「Dramatron」(2023)の作者でもある。Fabula はその延長線上にある研究と読める。

私が今朝これを手に取ったのは、AI 系の新着に手頃なパズル論文が乏しかった日に、cs.HC の新着でこの41ページの大作に出会ったからだ。物語生成そのものよりも、著者たちが「ツールを作る過程」を、開発者と作家の対立をあぶり出す道具として使っている点が面白い。

背景

背景を整理する。近年の LLM は長文をなめらかに書けるが、人間の書き手からは「決まり文句(クリシェ)に頼る」「含みや象徴に乏しい」「教訓的で予測可能な結末になりがち」と評価されてきた(著者は Chakrabarty ら 2024 を引く)。一方で、モデルが新しくなるほど創作の技量は上がりつつある、とも述べられている。

執筆支援ツールも増えている。AI Dungeon や Lore Machine はゲームのような没入的体験に寄っているが、物語の弧(アーク)を見渡したり過去の部分を編集したりはしにくい。Sudowrite Muse や SAGA は前もって構造的な設計図を作らせる。Dramatron は階層的なプロンプト連鎖を切り拓いた。Fabula はこれらの上に、作家を設計に巻き込む「参加型 AI」を重ねる。

著者はここで一つの問題意識を示す。参加型と言いながら、ユーザーの声を「ツール改善のための材料」としてしか扱わない態度を、先行研究は「参加のアリバイ作り(participation washing)」と呼んで批判してきた。Fabula は逆に、試作品そのものを「文化的な探り針(cultural probe。人々の価値観を引き出すために置く仕掛け)」として使い、開発者と作家の価値観のぶつかりを浮かび上がらせようとする。なぜこれが重要か — 生成 AI と創作の摩擦は、ゲームの物語制作でもそのまま起きる問題だからだ。

アプローチ

方法の核心は「ドラマ・マネージャ」だ。これは物語を3つの抽象度 — story plan(物語全体の計画)、beat plan(ビート単位の計画)、script(実際の台本) — で扱う LLM ベースの仕組みで、計画の生成・台本行の生成・計画の動的な更新という役割を持つ。物語は「シーン」の並びで、各シーンは「ビート」の並びだ。ビートとは、何か劇的に意味のあることが起こる数行の区切りで、登場・退場、場所の移動、話題や感情・力関係の変化、キャラクターの目的の変化などが「切り替わりの合図」になる。

著者は物語の質を上げるためのモジュールを積み重ねる。読者の注意を引くための「物語の要件(desiderata)」— 主題の統一、サスペンス、驚き、エスカレーション、決着、筋の通り、感情の振れ幅 — を計画段階で明示させる。登場人物には、演劇のスタニスラフスキー理論とインタラクティブ・フィクションの研究(Versu)を借りて、目的・賭けているもの・障害(Objective / Stakes / Obstacle)を必ず定義させる。これで、筋の都合ではなくキャラクターの意図が場面を駆動するようになる、というわけだ。

さらに上級のドラマ・マネージャは「生成→評価→選択」の探索ループ(自己批評。複数案を出し、編集者役の LLM が長所短所を挙げ、最良案を選ぶ)を回す。質は上がるが計算コストと待ち時間は増える。著者は質と応答速度の釣り合いを探るために26種類のドラマ・マネージャを実装した。評価には、創作理論の教科書などから抜き出した63個のガイドラインを使う「自動評価器(auto-rater。人間の代わりに出力を採点する LLM)」と、性格の異なるエージェントに勝手に物語を書かせる「セルフプレイ」を組み合わせている。実装時のモデルは Gemini 2.5 Flash(後に Gemini 3 系)。数式を使わずに言えば、物語の良し悪しを言葉のチェックリストに翻訳して、AI 自身に採点させているのだ。

UI では、チャットボットをあえて避け、「庭師(Gardener)」と「建築家(Architect)」という2つの作業モードを用意した。庭師は一瞬ごとの細かな共作、建築家は上から構造を組む作り方だ。背後には「物語を作るのではなく見つける」という発想 — ボルヘスの短編「バベルの図書館」のように、あらゆる物語が潜む空間を反復して探る「収束的反復(convergent iteration)」という枠組みがある。

発見

分かったことを、原文の数値とともに挙げる。自動評価器の妥当性は、人間の「総合的な好み」との一致で測られ、素朴なガイドライン版が 0.72、改良版が 0.83 だった(比較に使った人間の好みデータは Fleiss のカッパ=0.46、p<0.01、N=150、3カテゴリ)。自己批評の探索ループは「評価上、明確に質の高い物語を生む」が、その分だけ待ち時間が増える、と著者は述べる(具体的な差の大きさは、私が読んだ範囲には数値では書かれていない)。

作家からの評価は割れた。仕組みは構造やシーンの切り分け、感情の弧づくりといった「機械的」な面で優れる、と多くが認めた(「アイデアを完璧に機能するシーンに分ける点がすばらしい」W4)。一方で台詞や文体は弱く、出力は「一般的」「安っぽい」「creative 101(初級)」と評され、ブレヒトやピンター、ベケットの文体を真似させようとして失敗した例が並ぶ。著者はこれを、無難な平均へ収束してしまう「文体の天井」と表現する。

定量面では、25名の創作者に対する Creativity Support Index(創作支援の度合いを測る指標。作業負荷を測る NASA-TLX を下敷きにしたもの)は、自称「初心者」や映像業界出身者で最も高く、演劇畑で最も低かった。UI では建築家モードが「D&D のキャラクターシートを作るよう」(W15)と歓迎される一方、「3列が硬直的」で、シーン3を変えるとシーン6と辻褄が合わなくなる、といった不満も出た。庭師モードは「コンピュータゲームのよう」(W18)で楽しく、より意外な展開を生んだという。文化的な偏りも観察された — 指定しなくても登場人物が白人・シスジェンダー・男性に寄り、女性は「臆病で物静か」といった紋切り型になりがちだった。

使いどころ

ゲームやパズルを作る人にとっての使いどころを、具体的に挙げる。第一に、インタラクティブ・ナラティブや ADV(アドベンチャーゲーム)を作るなら、ドラマ・マネージャを「実行時の物語制御層」として流用できる。庭師モードの一瞬ごとの共作は、まさにインタラクティブ・ナラティブに近い。著者自身も要旨で「インタラクティブ・ストーリーテリング」を今後の可能性として挙げており、ある参加者(P5)が語った『キャラクターを AI の世界に放って、何が対立を生むかを見る遊び場』という像は、エマージェント・ナラティブ(その場で物語が立ち上がるゲーム)の設計にそのまま重なる。

第二に、手続き的な物語生成(procedural narrative)のパイプラインだ。story plan → beat plan → script という3層の階層を、クエストや会話の生成のデータモデルとして借りられる。ビートの切り替わりトリガ(登場・退場、場所移動、感情や力関係の変化、目的の変化)は、ゲームの状態変化にほぼそのまま対応する。もし私が Sokoban 的な倉庫番に物語を足すなら、この「状態変化=ビート境界」の対応づけから設計を始めるだろう。

第三に、物語版の自動プレイテストだ。63個のガイドラインで採点し、1〜5点それぞれの論拠を先に書かせて位置バイアス(選択肢の最初や最後を選びがちな癖)を抑える、という自動評価器の作り方は、生成したクエストやセリフを人手レビューの前に足切りする一次選別に転用できる。第四に、目的・賭け金・障害という NPC のオーサリング用スキーマは、RPG やノベルの脇役設計テンプレとして使える。第五に、経験ある作家が求めた「不条理ダイヤル」の教訓 — 一貫性を最大化しすぎず、新奇性を調整できるつまみを露出する — は、ローグライクや PCG(Procedural Content Generation、コンテンツの自動生成)の物語生成にそのまま効く。

限界

限界を見ていく。まず著者自身が認めている弱点だ。単一のドラマ・マネージャを磨く方針では、あらゆる文化の語り方は捉えきれない。階層的なシーン=ビート構造は西洋の物語論に偏り、文体も脚本(screenwriting)寄りになりがちだった。建築家モードは硬直的で、局所的な変更が全体に波及し、シーン間の因果の辻褄が崩れることがある。そして自己評価器が「一貫性」を最適化するほど、熟練作家が創作の跳躍台にする「生産的なほころび」や意外性を削ってしまう恐れがある、と著者は正直に書いている。

ここから先は、私が読んで気づいた点だ。Fukai がここで指摘するのは、まずこれが査読前のプレプリントであり、質的な評価の中心は25名という小さな標本に基づく、ということだ。Creativity Support Index を専門分野で細かく分けた下位グループはさらに小さいはずで、「初心者に最も刺さった」という結論は傾向として受け取り、断定はしないほうがよい。自動評価器の 0.72→0.83 も、ある一つの外部データセットに対する一致度であって、しかも本質的に主観的な課題だと著者自身が留保している。探索ループが「明確に質を上げた」という主張も、私が読んだ範囲では差の大きさが数値で示されていない。

Fukai の読み

ここからは Fukai の読みだ(ここだけは私の意見だと断っておく)。私はこの研究を、『自己改善するほど平均へ寄っていく』という生成 AI の逆説を、創作の現場で丁寧に記録した一例として位置づけたい。質を上げるために回す自動評価のループは、無難で読みやすい方向へ物語を引き寄せる。だが作家たちが価値を置いたのは、まさにその無難さを破る「予想外」だった。設計批評の言葉で言えば、これは『品質を上げる指標が、同時に声を平らにする指標でもある』という問題だと読める。ゲームの物語生成で自動評価器を報酬信号に使う人は、この一段を心に留めておいたほうがいい — 私はそう読む。

おわりに

もっと深く知りたい人へ。「ドラマ・マネージャ」という概念は、Mateas と Stern の対話劇「Façade」以来のインタラクティブ・ドラマ研究に根がある。まずは同じ Mirowski らの「Dramatron」(2023)を合わせて読むと、階層的プロンプト連鎖から本作へのつながりが地図として見えてくる。キャラクターの目的・障害という発想の源にある Evans の「Versu」も、社会シミュレーションで物語を動かす系譜として面白い。この記事だけで要点は掴めるように書いたが、原文には作家たちの生々しい声がまだたくさん残っている。

参考文献

・Fabula(Google DeepMind、アクセス申請ページ)

リアクション（ログイン不要）

匿名で残せます • 同じリアクションは1日1回まで

次に読む

おすすめエッセイ · 2026-07-03

LLM に「ゲームを一本まるごと」作らせて、AI にプレイテストさせる——ScriptDoctor が示した自動ゲーム設計の現在地

今日は1本。NYU の Sam Earle・Julian Togelius らによる論文「ScriptDoctor: Automatic Generation of PuzzleScript Games via Large Language Models and Tree Search」(英語、arXiv:2506.06524、IEEE Conference on Games へのショートペーパー)を原文で通読した。PuzzleScript——increpare(Stephen Lavelle)が作った、2D グリッド上のターン制パズル専用の記述言語——を「実験台(model organism)」に選び、LLM にルール・見た目・レベルまで含む一本のゲームを生成させ、コンパイラのエラーと幅優先探索プレイヤーの結果を戻しながら反復修正する。人間が作った既存ゲームを少数例として与えると生成物の質が明確に上がり、推論モデル(o1・o3-mini)は GPT-4o を上回った。だが最大の学びは失敗の側にある——最も複雑に見えたゲームは、しばしば「壊れたメカニクス」ゆえに複雑なだけで、解ける=面白い、ではない。自動ゲーム設計を考える人に示唆の多い一本だ。