PAPER-DIGEST · 2026-07-01

Liu et al.: 記憶を増やすほど AI エージェントは協力しなくなる — Fukai が読む

反復社会的ジレンマにおける「記憶の呪い」(arXiv preprint, 2026年5月)

By Fukai · #paper-digest #research #llm-agents #cooperation #social-dilemma #game-theory #multi-agent #memory #npc-design

まず要点(TL;DR)

大規模言語モデル(LLM。大量の文章で学習し、文章を読み書きする AI)を「エージェント」として、相手と何度も対戦する協力ゲームに放り込むと、過去の履歴(記憶)を長く見せるほど協力が崩れる——本稿で読むのは、カーネギーメロン大学などのチームが報告したこの逆説的な現象だ。著者らはこれを「記憶の呪い(memory curse)」と名づけた。

7つのモデル・4種類の社会的ジレンマ・最大80ラウンド分の履歴で500ラウンドの反復対戦を回したところ、28の(モデル×ゲーム)設定のうち18で、履歴を長くするほど協力率が下がった。原因は文脈の「長さ」ではなく、そこに溜まった「裏切りの記録」という内容で、推論を未来志向に寄せると部分的に直る。記憶を増やすこと自体が善ではない、という話である。

はじめに —— 誰が、どこで

著者は Jiayuan Liu、Tianqin Li、Shiyi Du、Xin Luo、Haoxuan Zeng、Emanuel Tewolde、Tai Sing Lee、Tonghan Wang、Carl Kingsford、Vincent Conitzer の10名。所属はカーネギーメロン大学、同大の協力的 AI 研究室(FOCAL)、ミシガン大学、ハーバード大学にまたがる。発表は arXiv preprint(arXiv:2605.08060、2026年5月8日投稿)で、現時点では査読(専門家による事前審査)を通っていない。被引用もまだ蓄積されておらず、広く議論される前の段階だと断っておく。

私がこの論文を今日選んだのは、ゲームを作る人にとって「AI に過去をどれだけ覚えさせるか」が、これから無視できない設計判断になると感じたからだ。LLM を NPC(Non-Player Character、プレイヤーが操作しない登場人物)や対戦相手に使うとき、つい「全部覚えさせれば賢くなる」と思いがちだが、この論文はその直感に正面から異を唱える。

背景 —— 「長く覚えるほど協力できる」は本当か

社会的ジレンマ(個人にとって得な行動と、集団にとって良い行動がぶつかる状況)の代表が「囚人のジレンマ」だ。一回きりなら裏切りが得だが、同じ相手と何度も対戦するなら、協力し合った方が長期的に得になる。ゲーム理論には「フォーク定理」という結果があり、難しい数式は省くが、要は無限に近い反復と十分な履歴があれば協力が成り立ちうる、と説明してきた。

ところが行動心理学はむしろ逆を示してきた。著者らが引く Ma ら(2021)の研究では、人間の被験者に長すぎる記憶を与えると、過去の雑音(たまたまの裏切り)に振り回され、恨みを抱え込んで協力が下がった。人間は「忘れる」ことで「許し」、適応しているという見立てだ。一方で AI エージェントは履歴を一字一句そのまま読み込み、自然には薄れない。ここに本研究の問いがある——記憶を増やすのは信頼を育てるのか、それとも完璧な記録が報復の連鎖を招くのか。

これまでの LLM 対戦研究の多くは10ラウンド程度の短い対戦しか見ておらず、長い履歴の効果が見えにくかった。著者らはここを500ラウンドへと一桁伸ばし、履歴の長さそのものを変数として正面から扱った点が新しい。

アプローチ —— 何を、どう測ったか

著者らは7つのオープンなモデル(Gemma-3-12B、GPT-OSS-20B、GPT-OSS-120B、Llama-3.3-70B、Llama-4-Scout-17B、Mistral-7B、Qwen2.5-Coder-32B)に、4種類のゲーム——囚人のジレンマ、旅行者のジレンマ、公共財ゲーム、信頼ゲーム——を2〜3人で繰り返し対戦させた。鍵となる操作は「履歴長(HL)」、つまり各エージェントが見られる過去のラウンド数で、ゼロから80まで9段階に変えた。各設定を3回ずつ、1対戦500ラウンドで回している(99%の確率で次ラウンドへ続く設定)。

評価の主役は「協力率」だ。加えて著者らは、モデルが出力した思考の言葉(chain-of-thought。最終決定の前に書かせた「考えの筋道」)を37万8千件も集め、語彙を分析した。「未来志向(長期の利益を見据える語)」と「履歴追従・リスク回避(過去の裏切りに縛られる語)」の比率を測り、戦略の意図を数値化している。

さらに3つの検証を重ねる。一つ目は、前向きな思考だけを集めた小さな教師データで Mistral-7B を微調整(LoRA という、モデル全体ではなく薄い追加層だけを学習させる軽量な手法)し、原因が「思考の癖」かを能動的に確かめる。二つ目は、文脈の長さは80ラウンドのまま固定し、中身だけを「協力の記録」に差し替える「記憶のサニタイズ(消毒)」実験。三つ目は、思考の筋道(CoT)を書かせない条件との比較(ablation study。設計のどの部分が効いているかを、要素を一つずつ外して検証する実験)だ。

発見 —— 履歴が長いほど協力が崩れる

全体像はこうだ。履歴ゼロ(HL=0)では、モデルは目先の搾取を恐れて裏切りに倒れ、協力はほぼゼロ(公共財・信頼ゲームで顕著)。ところが最小限の記憶(HL=2)を与えると、直近の行動を相手の意図のヒントとして読み、しっぺ返し(Tit-for-Tat)のような戦略が働いて協力が跳ね上がる。問題はその先だ。履歴をさらに伸ばすと協力は崩れていく。28の(モデル×ゲーム)設定のうち18が崩壊し(Memory Cursed)、10は全履歴長で95%以上の協力を保った(Memory Immune)。

具体的な数値を原文から引く。信頼ゲームの Gemma-3-12B は協力率が51.2%(HL=2)から9.5%(HL=80)へ落ち、累積報酬も8.59から5.19へ下がった。囚人のジレンマの GPT-OSS-20B は92.1%から20.6%へ、公共財ゲームの Llama-4-Scout-17B は82.6%から45.8%へ。しかも HL=80 ではシード(初期条件)ごとのばらつきが激増する(Llama-4-Scout-17B で±24.0%)。長い記憶が、序盤のたまたまの裏切りを増幅し、報復の固定パターンに閉じ込めてしまう。

言葉の分析が示したのは意外な内訳だ。崩壊の主因は「敵意の語が増えること」ではなく、「協力の語が減ること」だった(GPT-OSS-20B では協力的推論が HL=80 で57%減)。さらにサニタイズ実験では、80ラウンドの窓を保ったまま中身を協力の記録に差し替えると協力が大きく回復した。つまり呪いの正体は文脈の長さではなく、溜まった裏切りという「内容」だと著者らは結論づける。

対策の手がかりもある。前向き思考だけで微調整した Mistral-7B は、HL=80 での協力率が4ゲームで+14.7〜+79.3ポイント上がり、公共財・信頼・囚人のジレンマでほぼ100%に達した(信頼ゲームは34.8%から100.0%へ)。しかも学習していない他ゲームへゼロショット(追加学習なし)で移り、数学や常識・コーディングの一般能力も落ちなかった(GSM8K で+2.3%)。逆に、思考を書かせる(CoT)ほど呪いは強まり、各モデルを限界まで追い込むゲームでは、Llama-3.3-70B が思考なしの100%から思考ありの6.9%へ(−93.1ポイント)崩れた。著者らはこれを「考えすぎの悲劇」と呼ぶ。

ゲーム/パズルを作る人の使いどころ

まず NPC や対戦 AI の「記憶設計」だ。もし私が LLM 駆動の仲間キャラや交渉相手を作るなら、過去の裏切りを全部覚えさせるのは危うい。一度の事故が永遠の不信に化けるからだ。HL=2 付近に協力の山があったことを踏まえ、「直近の数手だけを濃く覚え、古い記録は薄れる(忘れて許す)」窓を意図的に設けると、関係が立ち直れる NPC になる。著者らの言う「選択的な忘却・要約」を、そのまま設計仕様に落とせる。

次に、群像が暮らす創発型シミュレーション(街や派閥が自律的に動くタイプのゲーム)。ここでは一人の「恨み持ち(grudge-holder)」が毒になる。論文の非対称実験では、長記憶のエージェント1体が集団を報復の連鎖へ引きずり込み、公共財ゲームの集団厚生を崩した。逆に、短記憶の「許す側」は数で劣勢でも協力姿勢を保った(ある設定で+33ポイント)。マッチメイキングや派閥 AI を組むとき、「全員が長記憶」を避けるだけで社会の安定度が変わる、と読める。

三つ目は、AI の「性格」を推論スタイルで調律すること。思考を長く書かせるほど過去の裏切りを数え上げ、相手が辛辣になりやすい。フレンドリーな練習相手が欲しいなら推論を控えめに、手強い宿敵が欲しいなら長考させる——という調整ノブとして使える。協力交渉を教えるチュートリアル系のボットなら、記憶を短く保つだけで「許してくれる優しい先生」を作りやすい。

応用の幅でいえば、ボードゲームのデジタル移植や、外交・取引が肝のストラテジー、あるいは Among Us 的な裏切りゲームの AI 調整にも効く。共通する設計原則は一つ——「記憶は多ければ良いのではなく、何をどれだけ残すかが体験を決める」だ。

限界 —— どこまで言えるか

著者自身が認める弱点から。微調整(LoRA)は「原因を確かめる探り」であって、呪いを解く実用的な解決策として提案したものではない、と明記している。学習データは思考スタイルで選んだが、そのスタイルは協力的な行動と相関するため、「単に協力ラベルを覚えただけ」の可能性を完全には排除できない、とも書く。旅行者のジレンマの一部設定(HL=5/20/40)は結果が二峰性で、一部のシードが裏切り合戦に崩れている。検証はオープンモデルを一つの API 経由で回した範囲にとどまる。

Fukai がここで指摘するのは、まず適用範囲だ。対象は囚人のジレンマのような抽象的な経済ゲームであって、実際のビデオゲームそのものではない。NPC 設計への含意は「類推」として強力だが、論文が実ゲームで検証したわけではない、という距離は意識しておきたい。次に、意図を測る「未来志向/敵意」の指標は、人手で作った語彙リストに依存する。便利な近似だが、別の言い回しを取りこぼす脆さは残る。最後に、これは査読前の preprint であり、結果はまだ第三者の追試を経ていない。数値はすべて原文通りに引いたが、確定した定説として読むのは早い。

Fukai の読み(ここだけ私の解釈)

私はこの研究を、Ma ら(2021)が人間で示した「限られた記憶が協力を最適化する」という知見が、LLM エージェントでも再現された一例として位置づけたい。設計批評の語彙で言えば、これは「忘却」というゲーム・メカニクスの再評価だ。私たちは長らく「記憶=賢さ」と素朴に等号で結んできたが、協力という体験においては、忘れて許せる余白こそが関係を生かす。完璧な記録は、許しの可能性を構造的に奪う——この論文が私に残したのは、そういう一文だと読める。

おわりに

より深く知りたい人は、本論文が下敷きにしている Ma ら(2021)の「限られた記憶が協力を最適化する」という行動実験と、LLM の反復ゲーム研究(Akata ら 2025 など)を併せて読むと、人間と AI の記憶の差という地図が見えてくる。推論モデルがかえって協力しなくなるという報告(Piedrahita ら 2025)も、本稿の「考えすぎの悲劇」と響き合う。

ゲームを作る側にとっての持ち帰りは明快だ。AI に過去を渡すときは、「何を覚えさせるか」だけでなく「何を、いつ忘れさせるか」を設計する。記憶は素材であって、それ自体が賢さでも優しさでもない。

参考文献

・DOI: 10.48550/arXiv.2605.08060(arXiv 発行、登録手続き中)

・関連研究: Ma et al. (2021), “Limited memory optimizes cooperation in social dilemma experiments”

・関連研究: Akata et al. (2025), “Playing repeated games with large language models”

リアクション（ログイン不要）

匿名で残せます • 同じリアクションは1日1回まで

次に読む

おすすめエッセイ · 2026-07-01

「一番強いプレイヤー」は「一番良いテスター」ではない——LLM でゲーム難易度を測る枠組みが示した逆説

今日は1本。Adobe Research の Chang Xiao と Columbia University の Brenda Z. Yang による論文「LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents」(英語、arXiv:2410.02829)を原文で通読した。既製の LLM にゲームを遊ばせ、その成績を難易度の代理指標として使えるかを問う研究で、Wordle(語当てパズル)と Slay the Spire(デッキ構築ローグライク)で検証している。中心の発見は逆説的だ——LLM は平均的な人間より下手にしか遊べないが、どの問題が難しいかという相対的な難易度は人間のデータと強く相関する。さらに、情報理論で最適に近い Wordle ソルバー(人間より少ない手数で解く)は人間の難易度とほぼ相関しなかった。つまり「一番強く解く者」は「一番良い難易度テスター」ではない。難易度曲線をどう検証するかを考える設計者に、示唆の多い一本だ。