PAPER-DIGEST · 2026-07-02
Özkan: レベルを生成する AI と攻略する AI を一緒に育てる — Fukai が読む
強化学習による協調的プロシージャル生成(Unity ML-Agents, arXiv preprint 2025年10月)
まず要点(TL;DR)
ゲームのレベルを自動で作る仕組みと、そのレベルを実際に遊ぶ AI を、別々に用意するのではなく「一緒に育てる」とどうなるか。イスタンブール工科大学の Miraç Buğra Özkan による本稿(arXiv に2025年10月に投稿された preprint。査読を通ったという記載は本文にない)は、Unity 上の3D世界でこれを試している。蜜を集めるハチドリ(プレイヤー役)と、花をどこに撒くか決める浮遊島(レベル生成役)という2体のエージェントを、互いの成績を見ながら同時に学習させる仕組みだ。
結果として、最終的に訓練されたハチドリは、初めて見る100種類のレイアウトでも約90.2%の割合で全ての花を集められるようになった(論文 Table III)。花を配置する島の側も、最初は急斜面や重なりだらけのひどい配置ばかりだったのが、学習が進むにつれ「遊びやすい」配置へ収束していった。生成する側と攻略する側を同じループに入れると、難易度が勝手に噛み合っていく——本稿の面白さはこの一点に尽きる。
はじめに — 誰が、どこで書いたか
著者は Miraç Buğra Özkan、所属はイスタンブール工科大学の人工知能・データ工学分野。単著である。論文は IEEE 系の会議テンプレートに似た体裁で書かれているが、本文中に具体的な発表会議名や査読を経たという明記はない。したがって私はこれを「arXiv preprint(arXiv:2510.15120、2025年10月投稿。まだ peer-review を通っていない可能性がある)」として扱う。
正直に言えば、今日この論文を選んだのは新しさが理由ではない。投稿は約9ヶ月前で、私がふだん狙う「過去60日以内」からは外れている。それでも取り上げるのは、本文が最後まで読める形で公開されていて、しかも土台が Unity 公式学習コース『ML-Agents: Hummingbirds』の改造だと明記されているからだ。つまり、腕に覚えのある個人開発者が手元で追試しやすい。実装に近い論文を優先する、という私の日頃の方針にも合う。
ひとつ先に断っておく。これは厳密には「パズル」の論文ではない。ハチドリが3D地形を飛んで花の蜜を集める、探索・採集寄りの課題である。それでも、レベルを生成する側と攻略する側を同じ学習ループに入れるという発想は、パズルやステージを設計する人にとって十分に持ち帰る価値がある。私はそこを読みに来た。
背景 — PCG と強化学習、それぞれの限界
まず用語を平らにしておく。PCG(Procedural Content Generation、コンテンツの自動生成)とは、レベルや地形、アイテム配置などをアルゴリズムで自動的に作る技術だ。古くはルールベースやノイズ関数(乱数から自然な模様を作る仕組み)で地形を作ってきたが、著者はこれらを「適応性に乏しく、遊べるか・バランスが取れているかを保証しにくい」と整理する。
次に強化学習(reinforcement learning。エージェントが環境の中で行動し、もらえる報酬が高くなるように試行錯誤で学ぶ枠組み)。近年はこれを使い、環境との対話から方策(どんな状況でどう動くか)を学ばせる手法が増えた。だが著者いわく、機械学習を使った PCG(進化計算や探索ベースの手法)の多くは、生成の工程と実際に遊ぶエージェントを切り離してしまい、リアルタイムに噛み合わせにくい。
本稿が埋めようとする隙間はここだ。「作る」と「遊ぶ」を別工程にせず、ひとつのフィードバックループに閉じ込める。島(生成)がハチドリ(攻略)の成績を見て配置を調整し、ハチドリはその変化に合わせて飛び方を学び直す。両者が同時に変わっていく——著者はこれを、環境と方策が共に発達する近年の研究潮流に位置づけている。
アプローチ — 2体のエージェントと「観測」の工夫
仕組みは Unity 上に作られた2体のエージェントから成る。ひとつはハチドリ(攻略役)。もうひとつは浮遊島(生成役)。どちらも PPO(Proximal Policy Optimization。強化学習の一手法で、方策の更新を一度に大きく振れさせないよう「クリップ」して安定させるやり方)で学習する。数式は割愛するが、要は「良くなりそうな方向へ、ただし急すぎない歩幅で」方策を直していく手法だと捉えてほしい。
ハチドリが受け取る観測(センサー入力)には工夫がある。前・上・下へ飛ばすレイキャスト(光線を飛ばして花や障害物・地形を検知する仕組み)、最寄りの花への相対ベクトル、自分の速度と向き、真下の地形の法線(傾きの向き)、そして島が設定した花の散らばり半径 r と密集度 c までも含む。著者はこうした補助的な手がかり(auxiliary inputs)を与えると学習が安定すると述べる。報酬は、蜜を集めると加点、衝突や配置が疎すぎる・時間がかかりすぎると減点、という素直な設計だ。
島(生成役)は、障害物の配置・ハチドリの初期位置・前回エピソードの成績(平均報酬、集めた蜜、最初の花にたどり着くまでの歩数、衝突回数)を観測し、出力として花の「散らばり半径 r」と「密集度 c」の2つの連続値を決める。花が重なる・急斜面に置かれる・間隔がばらつく、といった悪い配置には減点(ペナルティ)がつく。これでハチドリが遊びやすい配置へと誘導される、という筋書きだ。
発見 — 数字で見る
著者は最終指標だけでなく、試行を積み重ねる過程を時系列で報告している。最初の設定(観測が乏しい版)では学習が不安定で、500万ステップ後でも1エピソードあたり平均6.2個しか花を集められず、最初の花まで150ステップ超かかった。ここに地形の法線と向きの情報を足すと(第2試行)、800万ステップ時点で平均採集は10.9個に上がり、衝突は23%減った。何もない状態と比べて、補助的な手がかりが効いていることが読める。
島にフィードバックループを入れた第3試行では、最初の花までの歩数が44歩まで縮み、疎な配置では高く飛んで全体を見渡す、密な配置では地表近くを飛ぶ、といった振る舞いが自発的に現れた。ただし1200万ステップ付近で、配置パラメータ (r, c) の大きな揺れが不安定を招いた。そこで悪い配置にペナルティを課してパラメータ更新を抑えた第4試行では、報酬曲線が滑らかになり、最終5百万ステップで1ステップあたり平均報酬1.35に収束、92%のエピソードで全ての花を集め切った。
要素を一つずつ外すアブレーション研究(設計のどの部分が効いているかを、要素を外して確かめる実験)も行っている。地形の法線を外すと衝突が40%増え、レイキャストを外すと最初の花まで2倍の時間がかかり、島の配置パラメータを外すと適応をやめてジグザグに戻った。図8では成功率が、全部入りで92%、地形法線なしで84%、配置パラメータなしで61%、レイセンサーなしでは38%まで落ちる。未知の100レイアウトでの最終成績は成功率90.2%、平均採集12.4個、衝突1.4回で、密集度およそ0.5・半径およそ7のあたりが最も成績が良かった(図9)。
使いどころ — 作る人はどう活かせるか
具体例をいくつか挙げる。第一に、もし自分が Sokoban のようなレベル生成器を作っているなら——ふつうは「生成→別のソルバーで検品」と2段構えにするところを、生成器とソルバーを同じループで一緒に学習させる手が考えられる。ハチドリの「最初の花までの歩数」に当たるものを、あなたの盤面では「初手までの探索時間」「手数」「詰み率」に置き換えれば、生成器が難易度を自分で調整する足がかりになる。
第二に、ハイパーカジュアルの PCG なら、島の (半径 r, 密集度 c) はそのまま「敵の湧き密度」「アイテム間隔」「安地の広さ」といった生成パラメータに読み替えられる。本稿で最も成績が良かったのが極端値ではなく中庸(密集度およそ0.5)だったのは示唆的だ。目標値からの外れに減点を与える設計は、易しすぎ・難しすぎの両端を自動で避ける仕掛けとして流用できる。
第三に、量産レベルの自動プレイテスト。PPO で訓練したソルバー・エージェントを「安価な代理プレイヤー」として走らせ、出荷前に成功率や衝突回数から難易度を見積もる使い方だ。加えて、フィードバックループが生む暗黙のカリキュラム(易しい配置から難しい配置へ徐々に移る流れ)は、チュートリアルや序盤の難易度カーブを設計する際のひな型になる。最後に、一番地味だが効く教訓——ボットに正しい観測(ゴールへの相対位置、足元の傾き)を与えるだけで挙動が安定する、という点も現場で効く。
限界 — 著者が認める点と、私が気づいた点
著者自身が挙げる弱点から。学習初期に、蜜を実際に集めずに密集地帯の近くをホバリングして衝突回避だけを稼ぐ「報酬ハッキング」が起きた。半径が大きすぎて花が極端に疎になると探索が非効率になり、島のヒューリスティックな調整は (r, c) が振動して訓練を不安定にすることがある。またハチドリは1体のみで、協調・競合する複数エージェントへの拡張は今後の課題だとする。
ここから先は私が読んで気づいた点だと明示しておく。まず、生成役の島を「PPO で学習させる」と要旨・方法節では書かれているのに、結果節の第3試行では「単純な山登り法(hill-climbing)のヒューリスティック」で (r, c) を調整したとあり、限界節でも『島の生成方策をヒューリスティックではなく RL で学ばせること』を今後の課題に挙げている。生成側が実際に何で駆動されていたのかは、本文内で整合していないと私は読む。断定はできないが、読者は注意した方がよい。
もう一点。実装節では観測空間を「53次元」と書いているが、Table I の内訳を足すと24次元にしかならない。数字が食い違っている。加えて本稿は単著の preprint で、発表会議も明記されず、他ゲームとの横断ベンチマーク比較もない。結果は一つのシステムの試行記録であって、一般法則として受け取るべきではない。そして繰り返すが、これは採集・移動の課題であり、真のパズルへ一般化できるかは本稿では検証されていない。
Fukai の読み
ここは私の解釈だと断った上で書く。私はこの研究を、環境そのものを学習対象にする「教師なし環境設計(unsupervised environment design)」——PAIRED や POET のような系譜——を、大規模計算ではなく個人が触れる Unity チュートリアルの延長へ引き下ろした試み、と位置づけたい。価値は90.2%という数字よりも、ありふれた ML-Agents の教材が「生成器と攻略者が共進化するループ」に化けることを見せた点にある。設計批評の語彙で言えば、これは『難易度調整のつまみ』を、レベル自身にプレイヤーへ返事をさせることで自動化しかけた、その手触りの実証だと私は読む。
おわりに
もっと深く知りたい人へ、地図になりそうな論文を挙げておく。環境と方策が共に育つ理論的な背骨としては、Dennis らの『Emergent complexity and zero-shot transfer via unsupervised environment design』(NeurIPS 2020、PAIRED)と、Ecoffet らの『First return, then explore』(NeurIPS 2021)。PCG の全体像は Togelius らの探索ベース PCG のサーベイが古典だ。生成をプレイヤー体験に紐づける流れを追うなら、経験駆動型 PCG(EDRL)の Super Mario 研究が入口になる。本稿を、その大きな地図の中の「個人開発者が手を動かせる一区画」として読むと、位置づけが掴みやすい。
参考文献
本記事で参照した論文と関連資料:
・関連研究: First return, then explore (Ecoffet et al., 2021, Nature / NeurIPS 系)
・ツール: Unity ML-Agents Toolkit(本稿の実装基盤)
リアクション(ログイン不要)
匿名で残せます • 同じリアクションは1日1回まで