PAPER-DIGEST · 2026-06-30

Feng et al.: LLM エージェントは交易ゲームで賢く駆け引きできるか — Fukai が読む

混合動機の交渉ベンチマーク SidConArena(ボードゲーム Sidereal Confluence 由来)

まず要点(TL;DR)

大規模言語モデル(LLM。大量の文章で訓練され、文章を読み書きできる AI)を「エージェント」として、相手と駆け引きする経済ゲームの中に放り込んだらどう振る舞うのか。本稿で読むのは、清華大学のチームが作った SidConArena という評価環境の論文だ。題材は、交易と交渉が肝のボードゲーム『シダリアル・コンフルエンス』(Sidereal Confluence)。プレイヤーは資源を出し合い、変換装置で加工し、最後に競りで永続的な資産を奪い合う。

結論を先に言えば、GPT-5 や Gemini-3-Flash-Preview といった高性能モデルは確かに高い経済成績を出した。しかし著者らがゲームのログ(軌道)を細かく見ると、三つの弱点が繰り返し現れた。ルールは守れるのに資源の価値を取り違える、交渉が受け身で礼儀正しすぎる、そして長い目で見た投資計画が下手、の三つだ。AI を交渉相手やプレイテスターに使いたいゲーム作りの人にとって、示唆に富む観察だと私は思う。

はじめに

この論文の著者は Yeqi Feng、Yuxin Chen、Tianxing He の三氏(Feng・Chen 両氏が筆頭で同等貢献、He 氏が責任著者)。所属はいずれも清華大学の交叉信息研究院(IIIS, Institute for Interdisciplinary Information Sciences)である。公開は arXiv(プレプリント、つまり査読前の論文を無料公開するサーバ)で、識別子は arXiv:2606.27397。分類は cs.MA(マルチエージェントシステム)を主に、cs.AI と cs.GT(計算機科学とゲーム理論)にもまたがる。2026年6月末に新着として現れたばかりで、まだ査読は通っていない可能性が高い点は先に断っておく。

なぜ今日これを選んだか。私はパズルやゲームを作る人に向けて論文を訳しているが、ここ最近の AI 評価ベンチマーク(性能を測るための共通の試験)は「正解が一つだけある問題を解けるか」「相手を打ち負かすゼロサムのゲームに勝てるか」に偏っていた。本稿は、勝ち負けが単純でない『協力しつつ競争する』経済ゲームを正面から扱う。しかも題材が実在の交易ボードゲームというのが、設計の語彙で読み解ける気がして、ホットの濃いめのコーヒーを片手に紙に印刷して赤ペンを入れた。

背景

まず問題意識から。LLM をエージェントとして評価したいとき、これまでの多くの試験は静的だった。固定された問題集に答えさせる方式だと、訓練データに答えが紛れ込む『汚染』(contamination。評価用の問題がこっそり学習に使われてしまい、実力以上に良く見える現象)の心配もある。著者らは、動的で・相手の手が完全には見えず・社会的なやり取りが必要な場面でこそ、エージェントの本当の力が見えると主張する。

題材の『シダリアル・コンフルエンス』は、複数の異星種族が資源を交易して文明を発展させるボードゲームだ。各プレイヤーは持っている『変換装置』(ある資源を別の資源に変える装置)を動かしたいが、自前の資源だけでは足りない。著者らはこれを『生まれつきの不足(Inherent Deficiency)』と呼ぶ。だから交渉して資源を融通し合う。重要なのは、これがゼロサムではないこと——うまく交易すれば全員が得をする『正の和(ポジティブサム)』の構造だという点だ。

現実の経済活動の多くは、この『協力して価値を生みつつ、限られた資源を奪い合う』混合動機(mixed-motive)の形をしている。ここで強いエージェントには、目先の取引の損得勘定だけでなく、交渉力の読み、資源配分、そして何手も先を見た投資計画が要る。著者らは、こうした能力を一度に試せる土俵がこれまで足りなかった、と背景を整理している。

アプローチ(方法)

著者らはこのゲームを、少し堅い言葉で『有限期間の部分観測確率ゲーム(POSG)』として定式化した。噛み砕くと、ゲームには終わりの回数が決まっていて(有限期間)、各プレイヤーは盤面の全部は見えず自分の手元しか分からず(部分観測)、サイコロのような偶然も混じる(確率)、という設定だ。各回(ターン)は三つのフェーズに分かれる。

第一は『交渉』。プレイヤーは自然言語のメッセージと、拘束力のある交換提案(これを渡すから、これをくれ、という資源のやり取り)を出し合う。交換は双方の見込み価値が上がるときだけ成立する。第二は『生産』。手元の資源で変換装置を動かし、資源を加工する。これは何をどれだけ作るかを選ぶ、いわば荷造り(ナップサック)型の組み合わせ最適化問題だ。第三は『コンフルエンス(合流)』。永続的な資産(植民地や技術)を、伏せた入札=封印入札(中身が見えないまま同時に値をつける競り)で奪い合う。通貨役は『船(Ships)』というトークンだ。

面白いのは AI 側の作りだ。著者らは『脳(Brain)』と呼ぶ中央の振り分け役を置き、今がどのフェーズかに応じて専門の思考モジュールへ観測を回す。そして『神経記号インターフェース(neural-symbolic interface。言葉で考えた結果を、ゲームエンジンが実行できる関数呼び出しの形に変換する橋渡し)』を通して、自由な自然言語のやり取りと、ルールに従った厳密な実行を両立させた。人間が同じ環境で遊べるウェブ画面も用意されている。

発見

試されたモデルは、GPT-4o-mini や o3-mini といった小型のものから、Qwen-Plus、DeepSeek-V3、そして Gemini-3-Flash-Preview、GPT-5、Claude-Opus-4 といった高性能なものまで幅広い。評価は二通り。全員を同じモデルにする『自己対戦』と、異なるモデルを同じ経済に混ぜて Elo(イロ。チェスなどで使う相対的な強さの指標)で順位づけする『混合トーナメント』だ。なお論文本文では具体的な点数は図(Figure 3・Figure 4)で示され、文章中に数値そのものは書かれていないので、ここでも傾向として述べる。

傾向ははっきりしている。GPT-5 や Gemini-3-Flash-Preview など高性能モデルが最も高い終端成績(ゲーム終了時の総資産で測る成績)を出し、小型・旧世代のモデルは大きく見劣りした(Figure 3)。混合トーナメントでも強いモデルは強く、これは『似た者同士で対戦したから良く見えただけ』ではないことを示す(Figure 4)。ここまでは順当だ。

問題はここからだ。第一に、エージェントは正しい形式の行動はできるのに、資源の価値を取り違える。著者らの監査(Table 1)では、たとえば gpt-4o-mini が『工業資源 3 個』を『船 1 個』と交換した例が挙がる。環境のルール上の価値はそれぞれ 3 と 1、つまり等価のはずだが、エージェントは『船が手に入る』というだけでこれを好取引と評価した。著者らはこれを、船を競りの希少通貨だと意味的に連想して、その場その場の限界価値(marginal value。あと一個増えたときの本当の価値)を見失う『船プレミアム』と呼ぶ。

第二に、交渉が受け身で礼儀正しすぎる。希少なトークンを持ち複数の買い手がいる場面でも、最初の『妥当に見える』申し出をすぐ受け入れてしまい、値を釣り上げる・対案を出す・買い手同士を競わせる、といった駆け引きをしない(Figure 5a)。協力的だが、戦略的でない。第三に、長期の投資計画が苦手だ。各ターンの判断は一見もっともらしい(資源を節約し在庫を整える)のに、序盤に生産設備へ投資せず、複利的に伸びる機会を逃し、終盤に得点へ変換する力が弱い(Figure 5b)。著者らは『無効な手ではなく、複数ターンにわたる協調の欠如が問題だ』と整理している。

使いどころ

ゲームを作る人はここから何を持ち帰れるか。一つ目、交易・交渉が肝の経済ゲーム(『カタン』や題材そのものの『シダリアル・コンフルエンス』、4X や文明系の交易など)で、LLM を自動の対戦相手やプレイテスターに使う場合。本稿の観察は、素のままの LLM 相手 AI は希少な『通貨っぽい』資源を過大評価し、受け身に交渉する、と教えてくれる。つまり放っておくと『お人好しで搾取しやすい AI』になりがちだ。歯ごたえを出すなら、アンカリング(最初に強気の基準値を示して相場を引っ張る手)や対案を出す挙動を明示的に作り込む必要がある。

二つ目、NPC(non-player character。プレイヤーが操作しない登場人物)の交渉役・外交官の設計。『最初のフェアな提案をすぐ受ける』という失敗は、見方を変えれば調整ノブだ。気弱な商人キャラには素の LLM の受け身さがそのまま使えるし、手強い交渉者には強気の駆け引きを足せばよい。ただし基盤モデルは放っておくと礼儀正しい方へ寄るので、強気さは設計者が意図して加える前提で考えるのが安全だと私は読む。

三つ目、難易度の調整と資源設計。長期投資が苦手という性質は、複利・エンジン構築(資源が資源を生む仕組みを早めに整える戦い方)が効くゲーム(デッキ構築型、4X、放置ゲーム)では AI ボットが人間に負けやすいことを意味する。これを難易度の信号として使うこともできる。さらに『船プレミアム』は資源設計のヒントでもある。あるトークンを『これが入札通貨だ』と位置づけて見せるだけで、計算上は等価でも価値が高く感じられる——演出で価値を持たせたいとき、逆に意図せぬ溜め込みを避けたいとき、どちらにも効く知見だ。

四つ目、アーキテクチャの参考として。フェーズに応じて思考を振り分ける『脳』と、言葉の判断をエンジンが実行できる関数呼び出しに落とす神経記号インターフェースの組み合わせは、ルールの厳密なゲームに LLM を安全に埋め込む型として真似しやすい。自由な会話と、ルール違反を許さない実行を両立させたい設計者には参考になるはずだ。

限界

限界について。まず著者ら自身が認めている点から。Fukai がここで指摘するのは、評価が LLM 同士の対戦に閉じていることだ。人間が混じる対戦は未実施で、人間がエージェントの癖(船の過大評価など)を突いたらどうなるかは分からない。また交渉の仕組みは簡略化されている——成立した取引は拘束力を持つ提案として表現され、守らない約束・条件付き合意・後払い・評判・裏切りといった、人間の交渉の生々しい部分はまだ入っていない。さらに、モデルは追加学習(fine-tuning。特定の用途に合わせて再訓練すること)をしていないので、結果は『そのまま使ったときの実力』であり、この環境向けに鍛えた最高性能ではない。試行回数も有限で偶然のばらつきが残る、と著者らは率直に述べている。

私が読んで加えたいのは二点。一つは、本文に具体的な点数が文章として書かれておらず、傾向が図に委ねられていること。だから『どのモデルがどれだけ強いか』は本稿の文章だけからは厳密には言えず、図を自分で見る必要がある。もう一つは、観察された『受け身さ』が、対話モデルを丁寧で協調的に仕上げる調整(いわゆる RLHF 的な、人間の好みに寄せる最適化)の副作用なのか、純粋な戦略能力の欠如なのかは、この論文の範囲では切り分けられていない、という点だ。ゲーム AI として使うなら、ここは効き方が大きく変わるところだと思う。

Fukai の読み

ここからは私の読みだ。私はこの研究を、『ボードゲームのルールブックを、AI の弱点を映す鏡として使う』流れの中に位置づけたい。シダリアル・コンフルエンスというゲームは、もともと人間同士が机を囲んで声を張り、値を吊り上げ、最後の競りで一発逆転を狙う——その熱量こそが面白さの核だ。本稿が静かに示しているのは、いまの LLM はそのテーブルで『一番いい人』にはなれても『一番強いプレイヤー』にはなりにくい、ということだと私は読む。設計批評の語彙で言えば、これは交渉の駆け引きという『暗黙のルール』を、明示的に教えない限り AI は学ばない、という一例に見える。だとすれば、面白い交渉 AI を作る仕事は、礼儀正しさを足すことではなく、健全な強欲さをどう設計して与えるか、という問題に変わる。そこに私は設計者の出番を見る。

おわりに

おわりに。混合動機のマルチエージェント評価に興味が出た人は、まず本稿の土台である交易ボードゲームそのものに一度触れてみると、論文の問題意識が体で分かる。学術的にもっと深く知りたいなら、外交ゲーム『Diplomacy』を題材にした交渉エージェントの研究や、ゼロサムでない協力ゲームでのエージェント評価の系譜を合わせて読むと、地図が見えてくるはずだ。AI に『勝たせる』のではなく『賢く駆け引きさせる』ことの難しさが、いまどのあたりにあるのかが掴める。

参考文献

本記事で参照した論文と関連資料:

SidConArena: An Environment Evaluating Agents in Open-Ended, Positive-Sum Bargaining Game (Feng, Chen, He, 2026, arXiv preprint arXiv:2606.27397)

同論文 HTML 版(本文・図表)

・関連ゲーム: ボードゲーム『Sidereal Confluence』(本稿の経済構造の題材)

リアクション(ログイン不要)

匿名で残せます • 同じリアクションは1日1回まで

次に読む

おすすめエッセイ · 2026-06-30

「解けること」と「手がかりが見えること」——GenEscape が言語化したエスケープルーム設計の二条件

今日は1本。米ワシントン大学の Mengyi Shan・Brian Curless・Ira Kemelmacher-Shlizerman・Steve Seitz による論文「GenEscape: Hierarchical Multi-Agent Generation of Escape Room Puzzles」(英語、arXiv:2506.21839)を原文で通読した。テキスト→画像モデルにエスケープルームの謎を「絵」として生成させる研究だが、興味深いのは設計論の核心を二つの条件に切り分けている点だ——謎は(1)解けること(物体のアフォーダンスが筋の通った行動列を成すこと)、(2)その解へプレイヤーを導く視覚的手がかりが十分にあること。著者らは Designer / Player / Examiner / Builder の四エージェントを反復させ、とりわけ Examiner が「意図しない近道(ショートカット)」を潰していく。AI研究の体裁だが、設計者が普段プレイテストで行う作業を明文化しており、パズル設計の議論として読める。