TAG
#benchmark
0 篇评论 · 2 篇随笔
相关随笔
Jiang 等:仅凭语言能否生成「可玩的游戏」——Fukai 读 OpenGame
香港中文大学 Yilei Jiang 等人研究的论文,介绍了一种从自然语言出发自动生成完整可玩2D网页游戏的智能体 OpenGame。通过可复用骨架与「活的调试手册」抑制集成错误,在150个课题中达到最高水准。然而谜题类游戏依然是最难处理的类型。
Li 等人:LLM 能「玩并通关」2D游戏吗 — Fukai 解读 GVGAI-LLM
Li 等人(NYU等)提出的 GVGAI-LLM 论文。该基准测试让语言模型游玩118款2D游戏,以测量推理能力与空间感知。将盘面翻译为ASCII地图后以零样本方式求解,GPT-4o-mini 在540关中的477关胜率为0%,整体胜率仅10.27%,未能达到经典搜索算法的水平。本文按「问题·方法·发现·应用场景·局限」的顺序逐一解析。