117、P6 极高层添加用于超大目标检测:512 倍下采样的感受野增强方案 117、P6 极高层添加用于超大目标检测:512 倍下采样的感受野增强方案从一次线上事故说起去年双十一大促期间,我负责的智慧仓储检测系统突然在超大包裹识别上集体翻车。模型用的是YOLOv8x,训练时mAP@0.5:0.95有78.4%,上线后对2米×2米以上的托盘检测召回率直接掉到31%。排查了一整天,发现是P5层(32倍下采样)的特征图分辨率只有原图的1/32,对于占据画面60%以上的超大目标,感受野根本覆盖不全。当时我盯着特征图可视化结果,P5层的激活区域在超大目标上呈现出诡异的“空洞”——网络只能看到目标的局部纹理,完全丢失了整体轮廓信息。这个教训让我意识到:当目标尺寸超过特征图感受野的2倍时,检测头基本就是在盲猜。YOLOv11虽然引入了SPPF和C2f模块,但默认的P3-P5金字塔对超大目标依然力不从心。今天要聊的P6极高层方案,就是专门解决这个痛点的——在P5基础上再下采样一次,达到512倍下采样,让感受野直接覆盖整张输入图像。为什么需要512倍下采样先算一笔账。YOLOv11默认输入尺寸640×640,P5层特征图20×20,每个网格的感受野理论值约228像素(考虑C2f的堆叠)。对于640×640的图像,一个占据400像素的超大目标,需要至少2个网格才能覆盖其宽度。但实际检测中,目标边界往往落在网格边界上,导致特征提取不完整。512倍下采样意味着特征图尺寸降到1.25×1.25(实际取整为2×2或1×1)。每个网格的感受野覆盖整个输入图像——这不是夸张,当特征图只有2