
1. 项目缘起当大模型“看”世界时它在想什么最近在做一个挺有意思的评测项目核心是探究多模态大模型Multimodal Large Language Models, MLLMs的“空间推理”能力。简单来说就是给模型一张图再问它一些关于图中物体位置、方向、距离关系的问题看它能不能答对。这听起来像是小学生的看图说话但对AI来说却是个不小的挑战。为什么这么说因为模型需要同时理解图像中的视觉信息物体是什么、在哪和语言中的空间概念“左边”、“后面”、“之间”并将两者精确对齐。这背后涉及到视觉特征提取、语言理解、跨模态对齐和逻辑推理等一系列复杂过程。我之所以对这个话题感兴趣是因为在实际应用场景中空间推理能力至关重要。比如一个家庭服务机器人需要根据指令“把茶几左边的遥控器拿过来”来行动一个自动驾驶系统需要理解“前方右侧车道有施工车辆”并做出避让决策甚至在一个简单的交互式教育应用中模型也需要能回答“图中哪个积木在最上面”这样的问题。如果模型的空间推理能力不过关这些应用就无从谈起。在评测方法上业界和学界通常有两种主流策略一种是直接提问的“非CoT”策略另一种是要求模型“一步一步思考”的“思维链”策略。这次评测我重点对比了这两种策略在不同模型上的表现差异。结果发现事情远比“哪个策略更好”要复杂得多。策略的有效性高度依赖于模型本身的能力、问题的复杂度甚至问题表述的细微差别。接下来我就把这次评测的完整过程、核心发现以及一些实操中的坑和心得详细拆解一遍。2. 评测框架搭建定义问题、选择模型与构建数据集评测不能拍脑袋第一步是搭建一个严谨、可复现的框架。这包括了明确我们要评测的“空间推理”具体指什么选择哪些有代表性的模型以及用什么数据去“考”它们。2.1 空间推理任务的定义与分级“空间推理”是个很宽泛的概念。为了评测更具针对性我参考了认知科学和AI领域的相关研究将其操作化为几个层级基础方向与位置涉及“左/右”、“上/下”、“前/后”等基本方向词的理解。例如“图中猫在沙发的左边吗”相对位置与关系涉及“之间”、“旁边”、“附近”、“远离”等关系描述。例如“找出位于电视和书架之间的那盆植物。”距离比较判断物体间的相对远近。例如“A点和B点哪个离C点更近”这需要模型对图像有某种程度的度量理解挑战很大。视角转换从不同视角描述同一空间关系。例如“从司机的角度看行人是在车的哪个方向”组合推理需要结合多个空间关系进行逻辑推断。例如“如果A在B的左边B在C的前面那么A在C的哪个方向”在本次评测中我主要聚焦于前三个层级因为它们是更基础、也更常见的需求。视角转换和组合推理对当前大多数MLLM来说还是过于困难适合作为未来的探索方向。2.2 模型选型覆盖闭源与开源生态为了全面反映现状我选取了不同梯队、不同类型的多模态大模型闭源/API服务型GPT-4V (gpt-4-vision-preview)行业标杆综合能力最强是评测的基线。Gemini Pro Vision谷歌的强力竞品在推理和代码能力上常有亮点。Claude 3系列Opus/Sonnet以“长上下文”和“强指令遵循”著称评测其空间理解能力。国内主流大模型视觉版如通义千问VL、文心一言4.0、智谱GLM-4V等。选择它们是为了观察在中文语境和本土化数据训练下的表现这也是很多国内开发者的实际选择。开源/可私有化部署型LLaVA-NeXT社区最活跃的开源多模态模型之一版本迭代快是开源领域的风向标。Qwen-VL-Chat通义千问的开源版本在多项评测中表现不俗文档和生态较好。CogVLM强调“视觉专家”网络理论上对视觉细节捕捉可能更佳。MiniCPM-V参数较小但性能惊艳的“小钢炮”模型评测其效率与精度的平衡。注意模型选型不仅要看名气更要考虑你的实际场景。如果你需要高精度、不计成本闭源大模型是首选如果对数据隐私、定制化、成本敏感那么深入评测某个开源模型并针对性地微调可能是更优解。2.3 数据集构建从“干净”到“复杂”网上能找到的现成空间推理数据集如VSR、SpatialVLM虽然专业但有时过于学术化或与真实应用场景有距离。因此我决定混合使用标准数据集和自建数据。标准数据集采样从VSR和CLEVR数据集中选取了约200个样本。这些数据质量高标注准确适合作为“基础题”检验模型的底线能力。自建场景化数据这是评测的“灵魂”所在。我生成了约300张涵盖室内客厅、办公室、厨房、室外街道、公园、抽象示意图房间平面图、物体关系图的图片。针对每张图片人工设计了不同难度层级的空间问题。简单题物体清晰关系明确。例“图片中有几张椅子”中等题需要理解相对位置或处理遮挡。例“那个穿红色衣服的人站在队伍的哪个位置中间/开头/结尾”难题涉及距离估算、视角模糊或需要结合常识。例“以书架为参照台灯离书近还是离盆栽近”图中台灯可能在书和盆栽之间。自建数据的关键在于控制变量。例如测试“左边”时我会确保图中确实有明确的左右参照物如一个面朝特定方向的人或物体避免歧义。同时我会为同一张图设计CoT和非CoT两种提问模板。3. 核心策略对比CoT与非CoT的实战拆解CoT和非CoT不仅仅是提示词的不同它们背后是两种不同的推理引导机制。在实际评测中它们的表现差异显著且各有优劣。3.1 非CoT策略直接提问的“快思考”非CoT策略就是最直接的问答模式。我们给模型一张图片和一个问题期望它直接给出最终答案。提示词示例用户请观察这张图片并直接回答我的问题。问题图中蓝色的杯子是在红色盘子的左边吗只回答“是”或“不是”。优点响应速度快模型直接输出答案节省Tokens降低延迟和API成本。答案格式干净对于封闭式问题是/否多选一易于程序化解析和评估。对强模型友好对于GPT-4V这类顶级模型很多简单到中等难度的问题它凭借强大的内部推理能力直接回答的准确率已经很高。缺点与暴露的问题“黑箱”错误当模型回答错误时我们完全不知道它错在哪一步。是没识别出蓝色杯子是误解了“左边”的定义还是忽略了参照物这给后续的优化和调试带来了困难。对复杂问题乏力面对需要多步推理或存在歧义的问题模型直接猜错的概率大增。例如“找出距离门最近的那个物体”模型可能随机选择一个它认为“近”的物体。对能力较弱模型不友好对于开源小模型直接提问往往导致“胡言乱语”或答非所问因为它们可能无法将问题与图像信息有效关联。实测心得非CoT策略是检验模型“最终输出能力”和“成本效率”的试金石。它在简单、明确的任务上表现高效适合集成到对响应速度要求高、问题模式固定的生产流水线中。但对于需要高可靠性或问题复杂的场景它风险较高。3.2 CoT策略分步思考的“慢推理”CoT策略要求模型将思考过程“说”出来通常以“让我们一步一步地推理”开头。提示词示例用户请仔细观察这张图片并一步一步地推理最后给出答案。 图片内容[图片] 问题图中蓝色的杯子是在红色盘子的左边吗 请按以下步骤思考 1. 描述图片中的主要物体及其位置。 2. 确定‘左边’的参照物是什么通常以观察者视角或图中物体的固有方向为准。 3. 比较蓝色杯子和红色盘子的相对位置。 4. 根据以上分析得出结论。优点提升复杂任务准确率对于所有模型尤其是中等能力的模型CoT能显著提升多步推理问题的准确性。它迫使模型分解问题降低了单步认知负荷。提供可解释性模型的思考过程白盒化。即使最终答案错了我们也能从它的推理步骤中定位问题根源比如“哦它错误地把花瓶当成了参照物”。激发模型的“反思”能力有时模型在第一步描述中犯了错但在后续步骤中可能会自我纠正。这个过程本身是有价值的。缺点与成本计算成本与耗时翻倍输出内容大幅增加意味着更多的Token消耗和更长的生成时间。对于按Token收费的API成本可能增加数倍。答案解析复杂需要从一段冗长的文本中提取最终答案可能需要额外的正则表达式或小模型来解析增加了工程复杂度。可能引入新的错误模型可能会在推理过程中“编造”细节幻觉或者陷入无关的细节描述反而带偏了结论。对提示词设计敏感CoT提示词需要精心设计。过于笼统“请一步步思考”可能得不到结构化的输出过于死板必须分四步又可能限制模型的灵活性。实测心得CoT策略是模型能力“放大器”和“诊断器”。对于开源模型进行能力评估或调试时CoT几乎是必选项。它能清晰暴露模型在视觉感知、语言理解或逻辑串联上的短板。在产品化时对于关键任务如医疗影像分析、安全监控即使用CoT成本更高但其带来的可解释性和可靠性提升往往是值得的。一个折中的方案是在后台用CoT模式运行并记录日志但只将最终答案返回给前端用户。4. 评测结果深度分析数据背后的发现经过对超过500个样本的测试和统计分析一些有趣的模式浮现出来。以下是一些核心发现4.1 模型表现分层明显闭源模型优势稳固在综合准确率上模型呈现明显的梯队分布第一梯队85%GPT-4V, Claude 3 Opus。它们在绝大多数场景下表现稳定且准确CoT对它们的提升幅度相对较小约2-5%更多是提供可解释性。第二梯队70%-85%Gemini Pro Vision Claude 3 Sonnet 国内头部闭源模型。它们表现良好但在处理复杂遮挡、细微位置差异或需要常识辅助的空间问题时会出现失误。CoT策略对它们的提升非常关键平均能带来8-15%的准确率提升。第三梯队50%-70%主流开源模型LLaVA-NeXT, Qwen-VL。它们能处理大部分基础空间问题但对“相对距离”、“视角转换”等任务非常吃力。CoT策略是它们的“救命稻草”有时能将准确率从瞎猜水平~50%提升到可用的70%以上。第四梯队50%部分较小或较旧的开源模型。空间推理对它们来说是巨大挑战即使使用CoT提升也有限常常出现“推理过程看似合理但结论完全错误”的情况说明其视觉基础特征提取能力存在根本性不足。4.2 CoT的价值因“题”而异并非万能药CoT的提升效果并非均匀分布它与问题类型强相关问题类型非CoT平均准确率CoT平均准确率提升幅度原因分析基础方向左/右高很高小任务简单强模型内部已高效处理。相对位置之间/旁边中高大需要分解“识别物体A - 识别物体B - 判断关系”CoT强制分解步骤收益显著。距离比较低中巨大模型需先定位各点再“估算”距离。非CoT下极易乱猜CoT引导其梳理信息。涉及数量或计数的空间问题中低中高大模型在视觉计数上容易出错CoT让其“数出来”减少了漏计或重复。需要常识辅助的问题低低小如“自行车应该停在汽车的左边还是右边”靠路侧。模型缺乏常识再怎么分步思考也可能错。这个表格清楚地告诉我们对于逻辑链条长、需要信息整合的任务CoT策略价值最高对于依赖底层感知能力或外部知识的任务CoT帮助有限。4.3 典型错误案例剖析模型到底是怎么“想”错的只看准确率数字是枯燥的分析错误案例才有价值。以下是一些反复出现的错误模式参照物混淆这是最常见的错误。问题问“A在B的左边”模型却以图中另一个物体C或者默认的图片边框为参照来判断A的左右。在CoT输出中这一步错误会暴露无遗我们可以通过优化提示词来强制明确参照物例如“请以图中面向我们的那个人为参照判断...”。视觉感知幻觉模型“看到”了图中不存在的东西或者错误识别了物体属性。例如将“灰色的猫”描述成“棕色的狗”。这在非CoT下会导致莫名其妙的错误答案在CoT下则能看到幻觉发生的具体环节。空间术语歧义对“前面”、“后面”的理解不一致。对于一辆车它的“前面”是车头方向对于一个人“前面”可能是他面对的方向。模型有时会混淆。需要在提示词中明确视角“从拍照者的角度看...”。推理链条断裂在CoT中模型能正确完成前几步识别A识别B但在最后一步综合判断时却得出了与前面描述矛盾的结论。这反映了模型逻辑整合能力的薄弱。5. 实操指南与避坑要点如何设计你的评测如果你也想对自己的业务场景中的多模态模型进行空间推理评测以下是我总结的实操路线和避坑指南5.1 评测设计四步法定义你的“空间”不要泛泛地测“空间推理”。你的业务场景到底需要哪种是仓储机器人需要理解“货架第三层左数第二个箱子”还是教育APP需要判断“两个图形是否重叠”定义得越具体评测越有效。构建场景化测试集尽可能使用贴近你真实业务环境的图片和问题。可以先用公开数据集做基线测试但最终一定要有自己的“领域特化”测试集。100个高质量的领域样本比1000个通用样本更有价值。实施分层评测第一层基础能力筛查。用非CoT方式快速测试一批简单问题淘汰掉完全不合格的模型。第二层深度能力评估。对候选模型使用CoT策略测试中等和难题。不仅要记录准确率更要仔细阅读模型的推理过程这是发现模型“思维模式”缺陷的黄金机会。第三层压力测试与鲁棒性。引入有噪声的图片模糊、低光照、有歧义的问题、或对抗性样本比如故意把物体放在边界位置看模型的稳定性如何。量化与可视化不要只用一个“总准确率”。计算每个问题类别、每个难度级别的准确率。用表格或图表可视化不同模型、不同策略的对比结果。这能帮你做出更精细的选型决策。5.2 提示词工程中的关键细节为CoT设计结构化的“思考框架”不要只说“请逐步推理”。提供一个简单的框架如“第一步描述图中关键物体。第二步明确问题中的空间关系和参照物。第三步将第一步的描述与第二步的关系进行匹配。第四步给出最终答案。”这能极大提高输出的一致性和可解析性。明确视角和参照系在问题中主动明确。例如“假设你站在拍照者的位置请问...”、“以图中那个最大的桌子为中心...”。控制输出格式对于非CoT严格要求输出格式如“答案是”。对于CoT可以要求其在最后用“### 答案”这样的标记来分隔推理过程和最终答案方便程序提取。温度参数的设置对于确定性要求高的评测建议将温度设置为0或接近0如0.1以获得稳定、可复现的结果。探索模型能力边界时可以适当调高温度观察其多样性。5.3 成本与效率的平衡之道混合策略在实际应用中可以采用混合策略。简单问题走非CoT快速通道复杂问题或对置信度要求高的问题走CoT深度推理通道。这需要一套问题路由机制。缓存与优化对于常见的、固定的图片和问题如产品说明书中的示意图问答可以将模型特别是CoT的推理结果缓存起来直接复用避免重复计算。小模型做大模型的“CoT解析器”如果你使用闭源大模型的CoT输出可以考虑用一个本地的小型语言模型来专门解析这些冗长的文本提取结构化答案或关键步骤从而降低后续处理的复杂度。经过这一轮深入的评测我最深的体会是评估一个多模态大模型绝不能只看它“能不能回答”更要看它“是如何思考的”。CoT策略就像一台X光机让我们得以窥见模型推理的黑箱。虽然它带来了成本和复杂度的上升但在追求可靠性和可解释性的关键应用里这份“慢”和“贵”往往是必要的代价。对于开源模型CoT更是我们理解和提升其能力的核心工具。下次当你看到模型给出一个空间相关的答案时不妨多问一句如果让它把思考步骤写出来故事会不会不一样