PAPER-DIGEST · 2026-07-04

Wang 等人：从视线读取“大脑忙碌程度”的 LLM 智能体——由 Fukai 解读

认知负荷估计 / 视线测量 / HCI

作者: Fukai · #paper-digest #research #cognitive-load #eye-tracking #player-modeling #difficulty #LLM #game-design

一段式摘要

智能眼镜上的 AI 助手并不知道用户此刻的大脑有多忙（认知负荷，cognitive load，指投入到任务中的精神努力量）。这篇论文提出了一个名为 GazeMind 的框架，仅凭视线（eye gaze，指眼睛看向何处、如何移动）数据，就把认知负荷判断为“低、中、高”三级。其特点在于：不是从零重新训练一个专用模型，而是把视线整理成表格形式，交给大规模语言模型（LLM，一种从海量文本中学习语言模式的模型）来阅读并推理。

为了评测，研究团队新建了一个由152人、超过40小时视线数据组成的数据集 CogLoad-Bench。在其上测得，GazeMind 在三级分类任务中取得了62.73%的准确率，比以往的有监督方法（33%〜38%）以及直接把视线数据交给 GPT-4o 处理的方式（39.62%）高出20个百分点以上（论文 Table 1）。对我们这些制作游戏与解谜内容的人来说，这可以读作“从玩家的内部状态来衡量难度”的一种工具。另外需要留意，本文所依据的是 arXiv 上的 preprint（2026年5月投稿，可能尚未通过同行评审）。本篇解说旨在让读者不必打开论文本体，也能抓住要点。

前言

作者以 Bin Wang 为首，还包括 Yue Liu、Benjamin Newman、Michael J. Proulx 等人，是 Meta Reality Labs Research、Northwestern University 与 HarmonEyes 的联合团队。论文编号为 arXiv:2605.05790，属于 cs.HC（Human-Computer Interaction，人机交互，研究人与计算机之间互动的领域），于2026年5月7日投稿，是一篇 preprint。原文脚注明确写着“Preprint.”，也就是说尚未通过任何特定会议的 peer review（专家评审）。因此本文也不会将其视为“已经过同行评审”。

为什么今天选择这一篇。我每天早上浏览 arXiv 的 cs.HC / cs.AI 分区已成习惯，而这篇论文之所以吸引我，是因为它实际去测量并推断“认知负荷”这一处在解谜与游戏设计正中心的概念。如何设定难度、玩家会在哪里卡关，归根结底都会落到“大脑有多忙”这个问题上。虽然这项研究的舞台是智能眼镜，但“从视线读取负荷”这个思路完全可以直接搬进游戏 UX。我端着一杯热浓的手冲咖啡，一边在打印稿上用彩笔画线，一边读完了它。

背景

所谓认知负荷，说到底是人在完成任务过程中投入的精神努力。负荷低时人还有余裕，可以额外接收信息；负荷高时则已经应接不暇，不希望被打扰——如果 AI 助手能理解这一点，就能做出诸如“忙碌时延后推送通知”这类贴心的行为。然而以往的测量手段，要么依赖本人自我报告“现在有多辛苦”，要么依赖脑电（EEG）或 fMRI 这类专用传感器。前者会打断作业，后者又无法装进轻便的眼镜里。

于是视线成为候选方案。注视（fixation，指目光停留在一点）、跳视（saccade，指视线快速跳动的动作）以及瞳孔大小，都已知可以作为认知负荷的线索。不过作者整理指出，以往基于视线的方法存在三个弱点。其一，无法解释为何该视线模式意味着高负荷（解释性低）。其二，每换一个任务就必须重新训练模型。其三，视线习惯因人而异差别很大，导致模型难以套用到他人身上（泛化性低）。如何同时解决这三个问题，是这一领域一直悬而未决的课题。

方法

作者的思路，是把视线转换成“LLM 可以阅读的表格”，再借助语言模型的推理能力来判断认知负荷。LLM 已经从大量认知科学文献中学习过，因此天生就具备诸如“瞳孔放大往往意味着负荷较高”这类知识。而且，只要在指令（prompt）上下功夫，就能在不重新训练的情况下应对新任务；只要把过去的案例作为上下文提供，也能适应个体差异。GazeMind 用四个组件来实现这一设想。原文中出现了数学公式，但概括来说，整个流程就是“把视线翻译成语言与表格，再附上上下文、个体差异与范例，交给语言模型阅读”。

第一个组件是时序视线编码（将原始视线转换为注视时长、跳视幅度、眨眼次数、瞳孔直径等特征，并把过去数秒的数据整理成行列表格，即 Markdown 格式；实验中使用的是过去5秒的数据）。第二个组件是按任务给出的引导推理（同样的视线模式，含义会随任务变化，比如阅读时是低负荷、游戏中却可能是高负荷。因此系统会针对每种任务预先准备好“某特征如此变化即代表高负荷”这类解释规则，交给 LLM）。

第三个组件是自适应用户画像校准（根据视线习惯对人进行分类，例如瞳孔平时波动幅度较大的“High-Reactor”、相反波动较小的“Low-Reactor”、眨眼较多的“Restless”等。系统会计算每个人平时的基线值，再依据与基线的偏离程度做判断）。第四个组件是认知检索增强生成（CogRAG，把与当前视线相似的历史样本连同正确标签一并取出，作为范例展示给 LLM）。这四个组件被整合进同一次查询，让 LLM 回答“低、中、高”。整个过程完全不进行训练（不更新参数），仅靠提供上下文信息即可运作，这正是它的关键所在。

发现

为了评测，作者新建了名为 CogLoad-Bench 的数据集。他们使用名为 Project Aria 的眼镜型设备，从152人身上同步采集视线（90Hz）、第一人称视角影像与语音，合计456段录像、超过40小时。参与者每隔15〜30秒就要用7级量表口头报告“当前的负荷”，随后被归并为低、中、高三级（论文第4节）。数据集在训练和测试阶段的用户互不重叠（106人用于训练与构建数据库，46人用于测试），这样的设计正是为了衡量“对陌生人到底有多大效果”。

主要结果如下（论文 Table 1）。GazeMind 在三级分类任务中取得了62.73%的准确率、62.11%的 F1 分数。相比之下，决策树、SVM、LSTM 等有监督方法的准确率仅停留在33%〜38%，把视线数据直接交给 GPT-4o 处理也只有39.62%。作者写道：“在所有指标上都比现有方法高出20个百分点以上。”按任务类型划分（论文 Table 2），阅读任务的准确率为64.98%，游戏任务（环境刺激较多的社交类游戏）为60.63%，阅读任务略高。作者将此解释为阅读时视线更容易保持稳定。

论文中还有一项逐一叠加组件来验证效果的实验（ablation study，即通过去掉某个设计部分来验证它对结果的贡献程度）（论文 Table 3）。原始 GPT-4o 的准确率为39.62%，加入按任务引导后提升到45.34%，再加入用户画像校准后提升到49.10%，最后加入展示相似案例的 CogRAG 后大幅跃升至62.73%。也就是说，最后这个“展示范例”的部分，是提升效果最大的因素。在个体差异方面，使用 GazeMind 时，绝大多数用户的准确率都能达到60%以上；而使用原始 GPT-4o 时，则有近一半用户的准确率不到40%（论文 Figure 6）。

使用场景

那么，制作游戏与解谜内容的人可以如何运用这项研究呢。第一，是应用于难度校准（难度调节）。如果你正在能够进行视线测量的环境——比如配备了 PC 眼动仪或 VR 头显——中制作解谜游戏，就可以从玩家的视线推测“此刻大脑有多忙”，负荷持续偏高时给出提示，负荷过低时增加挑战性，用作动态难度调整（DDA，在游玩过程中自动调整难度的机制）的输入信号。这篇论文展示的设计要点在于：与其把原始视线数据直接丢给机器学习模型，不如先整理成特征、再附加上下文与个体差异，效果更好。

第二，是发售前游玩测试的分析。如果你正在制作 Sokoban 式的仓库番解谜游戏，想知道玩家会在哪个关卡卡住，就可以从受试者的视线日志中可视化出高负荷区间，从而定量地推断“这一关比预想的更耗费玩家的脑力”。以往这类分析大多依赖自我报告或通关率，而有了逐秒级的负荷估计，就有可能捕捉到卡关的那一瞬间本身。

第三，可以带走的一个教训，是面对个体差异的态度本身。这篇论文的核心，在于正面处理了“同样的视线，在不同人身上含义不同”这一点。换成游戏设计的语言，这近似于“同样一次操作失误，对新手和熟练玩家意味着不同的东西”这一常识，用每位玩家自己的基线值来加以校正的思路。如果你正在做超休闲游戏的自动关卡生成（PCG，Procedural Content Generation，内容的自动生成），就可以借鉴这一思路：不用统一的难度曲线，而是依据每位玩家相对于自己平常状态的偏离程度来调整。第四，在教育类、严肃游戏（面向学习、医疗等实用目的的游戏）领域，也可以考虑用它来检测学习者信息过载的瞬间，从而放慢节奏。

局限

作者自己也承认了三点局限（论文第6节）。第一，虽然模型本身无需重新训练，但每种任务的“解释规则”仍需要事先通过人工分析来准备（并非完全自动）。第二，正确标签依赖本人的自我报告，因而混入了主观成分，准确率的上限会被“人与人之间能达成多大共识”这一天花板所限制。第三，目前仅依赖视线，作者提到如果加入影像或语音，上下文理解应该还有改进空间。

Fukai 想在这里补充的，首先是关于绝对数值的解读方式。62.73%是三级分类的准确率，明显高于随机猜测（约33%），也大幅领先于现有方法，但还远未达到“几乎能精准说中大脑忙碌程度”的水平。在实际应用中，需要以存在误判为前提，设计成不会过度给出提示的形式。其次，这项研究中的“游戏”任务是环境刺激较多的社交类游戏，与需要静下心来解题的解谜游戏，其负荷施加的方式并不相同。若要将其引入解谜游戏，我认为应当以“需要在该领域重新构建解释规则”为前提来看待这些结论。而且，既然是 preprint，这些数值终究还没有经过同行评审，这一点也不应忘记。

Fukai 的解读

接下来是 Fukai 的解读。我想把这项研究放进“把玩家建模（推测游玩者内部状态的尝试）向生理信号方向再推进一步”的脉络中来看待。用设计批评的语汇来说，这近似于一种尝试：把长期以来只能依赖设计师直觉去判断的“眼下这位玩家是否已经手忙脚乱”，翻译成视线这一可从外部观察到的信号，并使其自动化。有意思的是，真正把准确率大幅推高的，并不是某个更聪明的分类器，而是“展示相似的历史案例”这样一个朴素的机制。难度并非绝对量，而是相对于此人平常状态的偏离——这篇论文，在我看来，是为游戏设计师凭经验早已知晓的这件事，提供了一份数据上的佐证。

结语

给想要深入了解的读者。若想追溯认知负荷本身的理论背景，不妨从梳理视线与负荷关系的综述文献（本论文所引用的相关文献）读起，会更容易看清全貌。若对游戏一侧的“难度”或“灵光一现”感兴趣，可以把本站此前介绍过的关于灵感探索的研究，以及难度调节、PCG 相关的论文放在一起阅读，这样应该能同时看清“如何测量难度、如何设计难度”这一问题的两面。视线测量目前仍需要特殊设备，但随着支持眼动追踪的头显日益普及，今天谈到的内容或许几年后就会成为更常见的设计选项。

参考文献

・同论文 PDF 全文

・正文中出现的数值均基于上述 preprint 的 Table 1、Table 2、Table 3、Figure 4-6 及正文内容（尚未经过同行评审，非最终定论）

Reactions (no login)

Anonymous • one of each per visitor per day