TAG

#spatial-reasoning

0 篇评论 · 1 篇随笔

相关随笔

2026-06-16 · 论文摘要
Li 等人：LLM 能「玩并通关」2D游戏吗 — Fukai 解读 GVGAI-LLM
Li 等人（NYU等）提出的 GVGAI-LLM 论文。该基准测试让语言模型游玩118款2D游戏，以测量推理能力与空间感知。将盘面翻译为ASCII地图后以零样本方式求解，GPT-4o-mini 在540关中的477关胜率为0%，整体胜率仅10.27%，未能达到经典搜索算法的水平。本文按「问题·方法·发现·应用场景·局限」的顺序逐一解析。