2605.30794 MechVQA: Benchmarking and Enhancing Multimodal LLMs on Comprehensive Mechanical Drawing UnderstandingAuthors: Qian Kou*, Xiaofeng Shi*, Yulin Li, Xiaosong Qiu, Xinyang Wang, Hua Zhou, Cao Dongxing |Year: 2026 |arXiv: 2605.30794机构: Beijing Academy of Artificial Intelligence (BAAI); Institute of Information Engineering, CAS; Beijing University of Technology会议: ICML 2026二、研究背景与动机 / Background Motivation问题定义机械工程图纸是设计与制造沟通几何形状、公差与装配意图的核心媒介。与自然图像不同机械图纸通过标准化图形语言编码语义包含多视图正投影主视、俯视、左视及剖视高密度尺寸标注尺寸线、公差、符号结构化文字明细表、技术要求理解机械图纸需要(i) 识别高密度标注和领域专用符号(ii) 依据投影规则推理跨视图空间关系(iii) 基于制图标准解释几何公差等规范。现有工作的缺口尽管 MLLM 在通用 VQA 中取得显著进展但在机械图纸上表现脆弱高标注密度与符号拥挤导致关键决策线索被遗漏缺乏领域知识 不可靠的空间推理导致结构不一致答案现有 CAD/机械基准仅覆盖特定切片符号识别、楼层平面图、设计合规缺乏统一的全方位评测Figure 1: (a) 机械图纸理解的代表性挑战(b) MechVQA 任务分类识别/推理/判断三层及示例问答------|--------|------|------||识别 Recognition| 识别与计数 | IC | 计数视图数量、孔等 || | 尺寸与标注 | DA | 读取尺寸值、公差 || | 文字与表格 | TT | 识别明细表、技术要求 || | 目标定位 | IL | 定位特征位置 ||推理 Reasoning| 结构理解 | SU | 理解零件结构 || | 几何计算 | GC | 几何尺寸推算 || | 装配关系 | AR | 理解零件配合 || | 投影与多视图 | PM | 跨视图一致性推理 ||判断 Judging| 异常检测 | AD | 发现标注错误 || | 一致性判断 | CJ | 验证符合制图标准 |问题按三个难度分级Easy / Medium / Hard。3.3 QA 生成与质量控制三类生成源自由生成Source I调用多个强闭源 MLLMGPT-5、Gemini 3、Claude生成候选问题 → 跨模型交叉验证 → 多模型回答 多数投票筛选无标准答案的模板生成Source II针对特定子任务设计模板如标注符号查询同样经多模型投票验证有标准答案的模板生成Source III基于专家核验的元数据生成包括 CAD 工具构造的异常检测题刻意引入错误尺寸/冗余标注最终保留20,778 个 QA 对按图纸级别严格分割8:1:1通过 CLIP 特征聚类避免近似重复跨分割泄露。Figure 2b: MechVQA 子任务分布与难度级别统计-----|------|------|| 准确性r acc r_{\text{acc}}racc​|[ 0 , 1 ] [0,1][0,1]| LLM-as-Judge 语义等价判断非字符串精确匹配 || 格式r fmt r_{\text{fmt}}rfmt​|{ 0 , 1 } \{0,1\}{0,1}| 是否包含think.../thinkanswer.../answer|| 质量r qual r_{\text{qual}}rqual​|[ 0 , 1 ] [0,1][0,1]| LLM 评分逻辑性 专业性 简洁性各[ 0 , 1 ] [0,1][0,1]平均 |4.3 两阶段自博弈 RL全量数据 DAPO在完整 MechVQA 训练集上训练定向 DAPO自博弈重采样对弱项子任务提高采样比例进一步补强能力短板Figure 2c: 基础模型 → SFT → 全量 RL → 定向 RL 的总分递进—|-----------|-----------|-----------|---------|| Qwen3-VL-4B-Instruct | - | - | - | 60.23 || GLM-4.6V最强开源 | 84.02 | 70.50 | 71.81 | 78.91 || GPT-4o | - | - | - | 63.06 || GPT-5 | - | - | - | 75.44 || Gemini-3-Pro-Preview最强闭源 | 81.56 | 57.42 | 80.52 | 77.28 || Claude-Sonnet-4.5 | - | - | - | 71.20 ||MechVL-4B-SFTOurs| 83.11 | 54.40 | 76.91 | 76.36 ||MechVL-4B-RLOurs|89.70|77.04|82.81|84.85|MechVL-4B-RL 以 4B 参数模型超越 Gemini-3-Pro-Preview77B7.57 pp超越 GLM-4.6V5.94 pp难度分层表现准确率难度SFTRLEasy92%94%Medium70%79%Hard53%75%RL 在中等和困难题上增益最大表明 RL 主要提升了需要多步推理和约束满足的能力。Figure 3: 不同模型在各难度等级的准确率斜率图5.3 消融实验训练阶段消融配置Rec.Reas.Judg.总分SFT83.1154.4076.9176.36 DAPO 全量86.2670.7581.6281.95 DAPO 定向89.7077.0482.8184.85RL 算法消融全量阶段算法Rec.Reas.总分GRPO83.5564.4980.47GSPO84.1761.2978.77DAPO86.2670.7581.95DAPO 在推理子任务上优势最明显6.26 pp vs GRPO这与 DAPO 的不对称裁剪和动态采样设计匹配。奖励设计消融奖励配置总分Acc (0/1 二值)82.24Acc (F1 词元级)80.33无质量奖励83.44全量奖励Ours84.85F1 奖励导致模型输出迅速缩短1.1K→0.8K token倾向简短但弱扎根答案无质量奖励则产生冗长输出~1.3K token完整奖励维持稳定长度~1.2K token推理质量最优。Figure 4: 不同奖励设计下训练过程中响应长度的动态变化Figure: t-SNE 可视化展示训练/验证/测试集的相互分离基于 CLIP 嵌入七、局限性与展望 / Limitations Future Work数据来源范围基于公开教材/手册尚未涵盖工厂实际图纸、遗留蓝图或企业特定制图规范。仅限 2D 理解包含多视图推理但不解决完整 3D CAD 重建或工程文件STEP/IGES生成。OCR 与图纸清晰度依赖极端标注密度、扫描质量差或局部模糊区域可能降低性能。无人类上界基准尚未报告领域专家标注一致性统计未来版本将补充。数据污染风险虽通过图纸级分割严格控制但公开源数据的训练污染不可完全排除。报告生成时间2026-06-01 | 图片路径相对于本文件部分平台可能图片显示异常请以我的博客内容为准