PixDLM：面向无人机实时分割的双路径多对齐轻量模型设计

发布时间：2026/6/22 9:16:35

1. 项目概述当无人机“看懂”世界需要新思路如果你玩过或者接触过无人机巡检、测绘或者目标跟踪一定会对一个场景深有感触无人机传回的画面里电线、绝缘子、建筑物、车辆、行人混杂在一起尤其是在逆光、雾霾或者快速移动的情况下想让算法准确地把目标“抠”出来简直难如登天。传统的图像分割模型在桌面端跑得挺好一上无人机就“水土不服”不是速度跟不上无人机的实时性要求就是对复杂多变的空中视角和光照条件束手无策。这正是我们团队在过去几年里在多个实地无人机项目中反复踩坑后决心要解决的问题。于是我们设计并实现了PixDLM。这个名字拆开看Pix代表像素级的精细处理DLM则是Dual-path Multi-alignment的缩写直指其核心架构双路径视觉编码与多路径对齐。这听起来有点学术但你可以把它理解为给无人机的“视觉大脑”装上了两套并行的处理系统一套负责抓大放小快速理解全局场景比如这是一片农田那边是高压线塔另一套则专注于局部细节看清目标的边缘和纹理比如绝缘子串上的每个伞裙是否完好。然后通过一个精巧的“多路径对齐”机制让这两套系统获得的信息充分对话、互相校正最终输出既快又准的分割结果。它不是为了刷榜而生的论文模型而是直接从无人机实际作业的痛点里“长”出来的目标很明确在机载计算平台如Jetson系列有限的算力下实现复杂场景下的实时、鲁棒推理分割。2. 核心设计思路为什么是“双路径”与“多对齐”要理解PixDLM的设计首先得明白无人机视觉面临的独特挑战。这跟手机拍照或者固定摄像头监控完全不同。2.1 无人机视角的独特性与模型设计困境无人机在天上飞它的视角是动态的、多尺度的、且光照条件极其不稳定的。一个目标比如一个电力金具在无人机靠近时可能占据画面中心细节丰富远离时又变成一个小点淹没在复杂的背景中。同时高空拍摄常会遇到强光、阴影、云层遮挡导致目标与背景的对比度剧烈变化。传统的单一路径编码器比如一个很深的ResNet或ViT在处理这种数据时容易陷入两难网络深了感受野大能理解全局上下文但对细节不敏感且计算量大会拖慢推理速度网络浅了计算快细节好但又容易“一叶障目”把一片树叶错认成缺陷。我们意识到必须让模型同时具备“鹰的眼睛”纵观全局和“虫的视角”明察秋毫。这就是双路径视觉编码的出发点。一条路径我们称为全局上下文路径Global Context Path, GCP它采用轻量化的结构快速下采样在较高的特征层级捕获整个画面的语义信息回答“这是什么地方主要有什么”的问题。另一条路径称为局部细节路径Local Detail Path, LDP它保持较高的空间分辨率甚至引入空洞卷积等操作在不显著增加计算量的前提下专注于提取目标的边缘、纹理等细节特征。2.2 多路径对齐让信息流动起来光有两条路径还不够。如果它们各自为政最后输出的结果可能就是全局路径说“这里有一片森林”局部路径说“这里有一片树叶”无法精确地对准到“森林里的第三棵树东侧第五片叶子有个虫洞”。多路径对齐Multi-path Alignment机制就是为了解决这个特征融合与空间对齐的难题。我们设计了三级对齐策略特征级对齐Feature-level Alignment在编码器的不同阶段将LDP的细节特征注入到GCP的对应层级用细节去丰富和修正全局语义。这里不是简单的相加或拼接而是通过一个轻量的注意力模块让GCP的特征“询问”LDP“在我这个感受野对应的区域细节上有什么特别需要注意的吗”空间级对齐Spatial-level Alignment由于两条路径的下采样率不同它们的特征图在空间尺寸上是对不齐的。我们使用可变形卷积Deformable Convolution来动态调整感受野让特征对齐不再依赖于固定的坐标而是根据内容自适应地采样这对于处理无人机拍摄中常见的透视变形和目标形变至关重要。语义级对齐Semantic-level Alignment在解码器部分我们引入了一个额外的监督信号不仅对最终的分割输出计算损失还对两条路径中间层的特征表达计算一致性损失。这迫使两条路径在语义理解上趋向一致避免出现严重的认知偏差。这个“双编码多对齐”的框架本质上是在模仿人类观察复杂场景时的认知过程先扫一眼把握整体再聚焦细节审视同时大脑不断整合这两部分信息形成一个稳定、准确的理解。实测下来这套思路对于提升模型在无人机数据集上的泛化能力和鲁棒性效果非常显著。3. 模型架构深度解析与实现要点下面我们拆开PixDLM看看它的内部是怎么工作的。我会结合代码片段使用PyTorch框架和配置思路让你能清晰地理解每一部分的设计意图。3.1 双路径编码器Dual-path Encoder的具体实现我们选择MobileNetV3-Small的变体作为全局上下文路径GCP的主干。为什么是MobileNetV3因为它是在精度和速度之间做了极致权衡的轻量级网络非常适合嵌入式部署。我们对其稍作修改去掉了原网络最后用于分类的全连接层并保留了四个不同尺度的特征输出记为C2, C3, C4, C5它们的空间尺寸依次减小语义信息逐渐增强。import torch import torch.nn as nn from torchvision.models import mobilenet_v3_small class GlobalContextPath(nn.Module): def __init__(self, pretrainedTrue): super().__init__() backbone mobilenet_v3_small(pretrainedpretrained).features # 提取多尺度特征 self.stage1 nn.Sequential(backbone[0:2]) # /2 self.stage2 nn.Sequential(backbone[2:4]) # /4 self.stage3 nn.Sequential(backbone[4:9]) # /8 self.stage4 nn.Sequential(backbone[9:]) # /16 def forward(self, x): c2 self.stage1(x) c3 self.stage2(c2) c4 self.stage3(c3) c5 self.stage4(c4) return [c2, c3, c4, c5] # 返回多尺度特征列表对于局部细节路径LDP我们设计了一个更浅但更“宽”的网络。它由几个堆叠的深度可分离卷积Depthwise Separable Convolution块组成并大量使用空洞卷积Dilated Convolution来扩大感受野而不增加分辨率损失。LDP最终输出与输入图像分辨率相同或1/2的特征图专门承载丰富的空间细节。class LocalDetailPath(nn.Module): def __init__(self, in_channels3, base_channels32): super().__init__() # 初始卷积快速提取底层特征 self.init_conv nn.Sequential( nn.Conv2d(in_channels, base_channels, 3, padding1, biasFalse), nn.BatchNorm2d(base_channels), nn.ReLU(inplaceTrue) ) # 细节增强模块使用空洞卷积 self.detail_blocks nn.ModuleList() for i, dilation in enumerate([1, 2, 4, 8]): # 逐渐增大的空洞率 block nn.Sequential( nn.Conv2d(base_channels, base_channels, 3, paddingdilation, dilationdilation, groupsbase_channels, biasFalse), # Depthwise nn.Conv2d(base_channels, base_channels, 1, biasFalse), # Pointwise nn.BatchNorm2d(base_channels), nn.ReLU(inplaceTrue) ) self.detail_blocks.append(block) def forward(self, x): x self.init_conv(x) for block in self.detail_blocks: x x block(x) # 残差连接稳定训练 return x # 保持高分辨率注意LDP的设计关键在于平衡细节保持与计算量。空洞卷积的rate不宜一开始就设置得过大如8以上否则在小型目标上容易产生“网格效应”丢失连续性。我们通常从1、2、4、8逐步增加并在实际数据上验证效果。3.2 多路径对齐模块Alignment Module详解这是PixDLM的灵魂。我们以特征级对齐为例展示其核心代码。我们设计了一个双向特征对齐块Bidirectional Feature Alignment Block, BFAB它接收来自GCP的某一层特征feat_g分辨率低和LDP的特征feat_l分辨率高。class BidirectionalFeatureAlignmentBlock(nn.Module): def __init__(self, channels_g, channels_l, align_channels128): super().__init__() # 对GCP特征进行上采样使其空间尺寸与LDP匹配 self.up_g nn.Upsample(scale_factor2, modebilinear, align_cornersFalse) self.conv_g nn.Conv2d(channels_g, align_channels, 1) self.conv_l nn.Conv2d(channels_l, align_channels, 1) # 一个轻量的交叉注意力模块 self.attention nn.Sequential( nn.Conv2d(align_channels*2, align_channels//4, 1), nn.ReLU(inplaceTrue), nn.Conv2d(align_channels//4, 2, 1), # 输出两个通道的注意力图 nn.Softmax(dim1) # 在通道维度做Softmax得到两个加和为1的权重图 ) self.output_conv nn.Conv2d(align_channels, align_channels, 3, padding1) def forward(self, feat_g, feat_l): # 1. 调整通道数并上采样GCP特征 feat_g_up self.conv_g(self.up_g(feat_g)) feat_l_adj self.conv_l(feat_l) # 2. 拼接并生成注意力权重 cat_feat torch.cat([feat_g_up, feat_l_adj], dim1) att_map self.attention(cat_feat) # [B, 2, H, W] att_g, att_l att_map[:, 0:1, :, :], att_map[:, 1:2, :, :] # 3. 加权融合 fused_feat feat_g_up * att_g feat_l_adj * att_l out_feat self.output_conv(fused_feat) return out_feat这个模块的妙处在于注意力权重是动态生成的。对于背景简单、全局特征可靠的区域att_g的权重大对于边缘复杂、细节特征重要的区域att_l的权重大。模型自己学会了在何时、何地应该相信哪条路径的信息。3.3 轻量化解码器与输出头对齐后的多尺度特征被送入解码器。我们采用经典的FPNFeature Pyramid Network结构作为解码器骨架但进行了轻量化改造将标准的3x3卷积替换为深度可分离卷积。解码器逐步上采样并融合不同层级的对齐后特征最终输出与输入同分辨率的像素级类别预测。class LightweightFPNDecoder(nn.Module): def __init__(self, in_channels_list, out_channels256): super().__init__() # 创建 lateral connections 和 output convolutions self.lateral_convs nn.ModuleList() self.output_convs nn.ModuleList() for in_channels in in_channels_list: lateral_conv nn.Conv2d(in_channels, out_channels, 1) output_conv nn.Sequential( nn.Conv2d(out_channels, out_channels, 3, padding1, groupsout_channels, biasFalse), # Depthwise nn.Conv2d(out_channels, out_channels, 1, biasFalse), # Pointwise nn.BatchNorm2d(out_channels), nn.ReLU(inplaceTrue) ) self.lateral_convs.append(lateral_conv) self.output_convs.append(output_conv) # 最终预测头 self.final_conv nn.Conv2d(out_channels, num_classes, 1) # num_classes为分割类别数 def forward(self, features): # features是从BFAB输出的对齐特征列表从深到浅 prev_feat None outputs [] for i, feat in enumerate(reversed(features)): # 从最深特征开始上采样 lat_feat self.lateral_convs[i](feat) if prev_feat is not None: # 上采样前一层的特征并与当前层融合 prev_feat F.interpolate(prev_feat, sizelat_feat.shape[2:], modebilinear, align_cornersFalse) lat_feat lat_feat prev_feat out_feat self.output_convs[i](lat_feat) prev_feat out_feat outputs.append(out_feat) # 取分辨率最高的输出层进行最终预测 final_out self.final_conv(outputs[-1]) return final_out4. 面向无人机场景的训练策略与数据工程有了好的模型结构还需要有针对性的训练策略和数据才能让PixDLM真正适应无人机这个特殊战场。4.1 无人机专属数据集的构建与增强无人机数据有几个特点目标通常较小、背景复杂、存在运动模糊和光照变化。公开数据集如VisDrone、UAVid虽然有用但往往与你的具体任务如电力巡检缺陷检测不符。因此构建或精调自己的数据集是第一步也是最重要的一步。数据收集要点多高度、多角度采集模拟无人机实际作业在不同飞行高度影响目标尺度和环绕角度下对同一场景进行拍摄。覆盖多种天气与光照务必包含清晨、正午、黄昏、阴天、轻度雾霾等条件下的数据。逆光场景是难点需要专门采集。标注质量对于小目标如销钉、鸟窝标注要格外精细。建议使用专业的标注工具如LabelMe、CVAT并制定明确的标注规范对于边界模糊的目标需要多名标注员交叉校验。数据增强策略通用的翻转、旋转、裁剪当然要用但针对无人机我们特别加入了以下增强模拟运动模糊使用随机大小的核进行方向性模糊模拟无人机悬停抖动或飞行中的拖影。光照与色彩抖动不仅调整亮度、对比度还模拟不同色温如夕阳的暖黄、阴天的冷蓝。多尺度训练这是关键。我们不是简单地将图片缩放到固定尺寸而是在一个较大的尺寸范围如从原图0.5倍到1.5倍随机缩放这迫使模型学习尺度不变性。对于小目标我们还会以较高概率进行“小目标复制粘贴”增强即从其他图片中裁剪小目标以合理的方式粘贴到当前图片中增加小目标的样本多样性。网格失真Grid Distortion轻微模拟广角镜头带来的边缘畸变。4.2 损失函数设计引导模型关注难点我们使用组合损失函数来指导模型学习Total Loss α * L_ce β * L_dice γ * L_consistencyL_ce交叉熵损失是分割任务的基础负责分类准确性。L_diceDice损失特别适用于前景目标和背景像素数量不平衡的场景能有效提升小目标的分割效果。这在无人机巡检中非常常见缺陷像素可能只占图像的千分之一。L_consistency一致性损失这就是我们前面提到的语义级对齐的监督信号。我们计算GCP和LDP在中间层特征图上的余弦相似度或均方误差鼓励它们对同一区域产生一致的语义表达。这个损失项是让“双路径”协同工作的关键粘合剂。在训练初期我们设置αβ1, γ0.5让模型先打好基础。在训练中后期逐渐将γ增加到1甚至1.5强化对齐约束。同时针对困难样本如被阴影遮挡的绝缘子我们会在计算L_ce时根据像素的分类难度动态调整权重让模型更关注这些难分区域。4.3 训练技巧与超参数选择优化器我们使用AdamW因为它对超参数不那么敏感并且权重衰减Weight Decay的设置有助于防止过拟合。初始学习率通常设为3e-4。学习率调度采用Cosine Annealing Warm Restarts策略。这种策略会让学习率周期性地从初始值以余弦函数形式下降到接近0然后突然“重启”到一个较高的值不是初始值。这有助于模型跳出局部最优在训练后期找到更好的解。对于无人机数据这种复杂分布这个方法比简单的Step Decay更有效。批量大小Batch Size在显存允许的情况下尽量大。大的Batch Size能使梯度估计更稳定。如果使用Jetson等嵌入式设备做训练可能受限于显存可以采用梯度累积Gradient Accumulation来模拟大的Batch Size。训练轮数Epochs无人机数据集通常不会特别巨大几万张已算很多我们一般训练150-300个Epoch并密切监控验证集上的mIoU平均交并比和针对小目标的F1-Score当指标连续多个Epoch不再提升时提前停止。5. 部署优化与Jetson平台实战模型训练得好最终还是要部署到无人机上的Jetson等边缘计算平台。这一步的优化直接决定了模型的实用性。5.1 模型压缩与加速在部署前我们必须对PixDLM进行“瘦身”和“提速”。剪枝Pruning我们采用结构化剪枝主要针对LDP路径中的深度可分离卷积和BFAB中的一些1x1卷积。通过评估神经元或通道的重要性移除贡献度低的保留网络骨架。剪枝后需要微调Fine-tune一段时间以恢复精度。量化Quantization这是边缘部署的必选项。我们将模型从FP32精度量化到INT8精度。使用TensorRT或PyTorch的Quantization Aware Training (QAT)工具链。QAT是在训练中模拟量化过程让模型适应低精度计算通常比训练后量化PTQ精度损失更小。量化后模型大小减少约75%推理速度提升2-4倍。知识蒸馏可选如果我们有一个更大、更精确但笨重的教师模型比如DeepLabV3可以用它来“教导”精简后的PixDLM学生模型让学生模型在保持轻量的同时性能逼近教师模型。5.2 Jetson平台部署全流程以NVIDIA Jetson AGX Orin为例部署流程如下环境准备在Jetson上安装JetPack SDK它包含了CUDA、cuDNN、TensorRT等核心库。确保你的PyTorch版本是与JetPack中的CUDA版本兼容的ARM版本。模型转换将训练好的PyTorch模型.pth文件通过ONNX作为中间格式最终转换为TensorRT引擎.engine文件。这是性能最优化的关键一步。# 示例使用torch.onnx.export导出ONNX模型 # ... (在开发机上执行) # 将ONNX模型拷贝到Jetson使用TensorRT的trtexec工具或Python API进行转换 # trtexec --onnxpixdlm.onnx --saveEnginepixdlm_fp16.engine --fp16注意转换时务必开启FP16或INT8模式以获得最大加速。同时要仔细检查ONNX导出和TensorRT转换过程中是否有不支持的算子PixDLM中使用的可变形卷积在早期TensorRT版本中可能不支持需要寻找替代实现或使用插件。编写推理引擎在Jetson上使用TensorRT的C或Python API加载.engine文件编写预处理图像归一化、缩放、推理、后处理argmax取类别、生成掩膜的流水线。预处理和后处理也要尽量优化比如使用OpenCV的GPU加速函数。性能测试与调优延迟Latency测量从输入一张图像到输出分割结果的总时间。目标是在目标分辨率如1024x768下单帧推理时间小于100ms以满足实时性10FPS要求。吞吐量Throughput测试并行处理多帧图像的能力。可以利用TensorRT的动态批处理Dynamic Batching功能。功耗使用sudo jetson_clocks锁定最大频率进行性能测试但在实际飞行中可能需要根据任务调整功率模式在性能和续航之间取得平衡。使用nvpmodel和jetson_clocks工具进行管理。5.3 与无人机飞控及图传系统的集成模型在Jetson上跑起来后需要接入无人机的数据流。图像输入通过GStreamer或ROS2的节点订阅无人机图传系统发布的图像话题通常是sensor_msgs/msg/Image。ROS2是机器人领域的事实标准其通信中间件非常适合这种分布式系统。推理结果输出将分割结果通常是每个像素的类别ID打包成自定义的消息格式发布出去。可以是压缩后的掩膜图像也可以是提取出的目标轮廓点集等更高层的信息。与飞控交互这是高级应用。例如在巡检任务中识别到缺陷后可以通过MAVLink或ROS2服务调用命令无人机悬停、靠近拍摄或标记位置。这就需要设计一个状态机协调视觉感知模块和飞行控制模块。6. 实际应用案例与效果评估我们在一项电力输电线路绝缘子缺陷自动巡检项目中全面应用了PixDLM。背景是传统的直升机或人工巡检效率低、风险高、受天气影响大。任务从无人机航拍视频中实时分割出绝缘子并判断其是否存在破损、闪络痕迹等缺陷。挑战绝缘子串在图像中呈现细长、多片的结构与天空、铁塔、山脉背景对比度各异缺陷区域极小无人机飞行带来抖动和尺度变化。方案使用大疆M300 RTK搭载禅思H20T相机混合变焦采集数据覆盖不同电压等级线路、不同光照条件。标注数据区分“完好绝缘子”、“破损绝缘子”、“背景”三类。使用PixDLM进行训练并针对“破损绝缘子”这个小类别加强了数据增强和损失权重。部署在M300的机载DJI Manifold 2基于Jetson TX2上。效果精度在独立测试集上整体mIoU达到87.5%其中“破损绝缘子”类别的IoU从基线模型如U-Net的52%提升至78%召回率Recall提升尤为明显这意味着漏检率大大降低。速度在1024x768输入分辨率下TensorRT INT8量化后的模型单帧推理时间稳定在65ms左右约15 FPS完全满足实时处理要求。鲁棒性在侧光、逆光条件下模型性能下降不明显显著优于对比模型。这得益于双路径结构中对全局光照上下文和局部细节的协同理解。评估指标解读对于无人机分割不能只看整体mIoU。我们更关注针对小目标的F1-Score/IoU这直接决定了缺陷检测的可用性。速度-精度曲线Speed-Accuracy Trade-off在嵌入式平台上这是硬指标。PixDLM的设计目标就是在精度损失可接受的前提下3%追求极致的推理速度。不同天气/光照条件下的性能稳定性将测试集按条件分组分别评估确保模型没有“偏科”。7. 常见问题排查与调优心得在实际开发和部署中我们遇到了无数坑这里分享几个最具代表性的问题和解决思路。7.1 模型在Jetson上推理速度不达标现象转换后的TensorRT引擎推理时间远高于预期。排查检查精度模式确认转换时是否使用了--fp16或--int8。FP32模式会慢很多。分析Profiling使用TensorRT的trtexec工具加--dumpProfile参数或者Nsight Systems进行性能剖析找到是哪个层Layer或操作Operation耗时最长。常见瓶颈是某些特殊的激活函数如SiLU或非标准卷积。检查输入/输出数据拷贝在Python API中将数据从CPU拷贝到GPU以及结果从GPU拷回CPU的时间可能被忽略。确保使用pycuda或cupy进行高效的DMA直接内存访问。解决对于耗时长的算子考虑是否有等效的、更高效的替代实现。例如将自定义的复杂操作拆解为TensorRT原生支持的算子组合。启用TensorRT的优化策略如builder_config.set_memory_pool_limit(trt.MemoryPoolType.WORKSPACE, 1 30)设置足够大的工作空间。考虑使用静态形状Static Shape而不是动态形状如果输入分辨率固定的话这能带来显著的图优化。7.2 训练时损失震荡或不收敛现象损失函数值上下跳动或者下降到一定程度后不再下降。排查检查数据是否有错误的标注数据增强是否过于激进导致图片失真严重特别是“复制粘贴”增强如果粘贴位置不合理如绝缘子飘在空中会引入噪声。检查损失权重一致性损失L_consistency的权重γ是否设置过大过大会干扰主分割任务的学习。可以尝试在训练初期将其设为0待模型初步收敛后再逐渐加入。检查学习率学习率是否过高使用学习率查找器LR Finder找到一个合适的范围。解决加入梯度裁剪Gradient Clipping防止梯度爆炸导致的震荡。尝试使用标签平滑Label Smoothing尤其是在类别不平衡严重时可以防止模型对多数类过度自信提升泛化能力。对于双路径模型可以尝试分阶段训练先单独训练LDP冻结GCP学习细节再联合训练微调最后解锁所有参数一起训练。这有时能带来更稳定的收敛。7.3 模型对某一类目标如远处小目标分割效果差现象近距离、大目标分割很好但远距离的小目标总是漏检或分割不完整。排查与解决数据层面检查训练数据中该类目标的样本数量和尺度分布。很可能小尺度样本不足。需要针对性补充数据并在数据增强中提高小尺度缩放和“复制粘贴”小目标的概率。模型层面检查LDP路径的设计。是否因为下采样或空洞卷积设置不当导致小目标的细节信息在早期就丢失了可以尝试减少LDP初始的下采样步长或者在LDP中增加一条更高分辨率的旁路。损失函数层面提高Dice Loss的权重因为它对小目标更友好。或者为小目标类别在交叉熵损失中设置更高的类别权重。后处理层面在推理后可以加入基于连通域分析的后处理过滤掉面积过小的噪声区域但同时也可以将一些破碎的小目标区域根据空间关系进行合并。7.4 实际飞行中分割结果出现闪烁Flickering现象视频流上同一物体在连续帧中分割结果时好时坏边界抖动。原因这通常是单帧模型的通病没有利用时间连续性。无人机视频的帧率很高相邻帧之间变化很小。解决时间一致性约束这是一个高级优化点。可以在训练时输入连续两帧或多帧并在损失函数中加入鼓励分割结果在时间上平滑的项如光流引导的一致性损失。但这会增加模型复杂度和计算量。后处理平滑更实用的方法是在推理端进行。对连续N帧的分割结果进行加权平均或中值滤波。例如使用一个简单的滑动窗口取过去3帧对应像素类别概率的平均值再取argmax。这能有效抑制抖动代价是引入极小的延迟。利用IMU信息如果无人机提供了稳定的姿态和位置信息可以粗略估计帧间运动辅助进行图像配准从而在特征层面或结果层面进行对齐和融合。从理论设计到代码实现从训练调优到边缘部署PixDLM的整个生命周期都紧密围绕着无人机视觉推理分割的真实需求展开。这套“双路径编码多路径对齐”的框架其思想并不局限于分割也可以扩展到目标检测、实例分割甚至深度估计等任务。它的核心启示在于对于复杂的、非结构化的真实世界视觉问题尤其是资源受限的边缘场景设计一个能同时、高效处理多尺度、多维度信息的模型架构往往比单纯堆砌更深的网络或更大的数据来得更有效。在实际项目中最大的挑战往往不是模型本身的精度而是如何让模型在严苛的资源限制和复杂的环境干扰下稳定、可靠地工作这需要算法工程师对问题本质、模型细节和部署平台都有深刻的理解。

文章详情

PixDLM：面向无人机实时分割的双路径多对齐轻量模型设计

相关新闻

最新新闻

日新闻

周新闻

月新闻