8-EnBoT-SORT:面向高密度热红外无人机的层次化融合关联追踪与伪样本生成方法 摘要热红外高密度无人机目标检测与跟踪在数据层面和算法层面均面临显著挑战。在数据层面,准确标注的真实场景 样本稀缺且采集成本高昂;在算法层面,则主要难点在于如何应对由目标高度密集聚类、频繁遮挡以及目标反复出现所导致的身份切换问题。为解决这些难题,本文提出了一种创新的红外伪样本生成方案——通过设计基于物 理机制的异构交互退化模型(HIDM),该模型利用背景与目标间的协同退化机制模拟真实红外成像过程(涵盖 多种耦合退化因素),并结合随机轨迹生成策略,生成大规模物理特性真实的伪样本数据,显著提升了数据的领 域适应性。在此基础上,我们进一步提出了分层融合关联跟踪框架——EnBoT-SORT。该框架采用YOLOv12作 为强大的目标检测器,并创新性地将动态目标密度调节器、混合特征关联引擎及轨迹连续性增强模块整合至 BoTSORT中,有效保障了目标ID的连续性和稳定性。实验结果表明,在高密度无人机运动场景下,EnBoTSORT显著优于现有跟踪算法:在IRT-B和IRC-B数据集上分别取得 HOTA 值68.7%和67.3%、MOTA值76.2%和 74.6%,达到业界领先水平。此外,基于真实红外与可见光数据集的跨模态实验表明,EnBoT-SORT具备出色的 泛化能力。大量实验表明,所提出的伪样本数据集在运动复杂度和图像结构完整 性方面均展现出可靠的应用价值。EnBoT-SORT不仅在红外模态中表现 优异,在可见光领域也表现出强劲的竞争力。综上所述,本文主要做出以下贡献:• 我们提出了该 HIDM 模型,它构建了一个包含尺度、运动和可见性三个阶段的交互式退化链,用于描述背景与目标之间的退化关 系。该模型能高效模拟现实世界红外无人机成像中的复杂退化过 程。• 我们提出了一种针对连续帧的完整密集无人机伪样本生成方案,该 方案通过整合随机轨迹生成模型与目标自适应嵌入策略实现。这使得能够合成具有真实运动特征和外观连续性的高保真密集红外 无人机数据集。• 我们提出EnBoT-SORT层次化融合关联框架,该框架创新性地整合了动态密度调节器、混合特征关联引擎以及轨迹连续性增强模块。 即使在初始注释不可用的情况下,EnBoT-SORT仍能保持稳定的ID 连续性并实现稳健的丢失目标恢复性能。1、代码和数据集1.1 论文代码https://github.com/gjxser/EnBoT-SORT1.2 数据集IRT - B数据集按照622的比例分为训练集、验证集和测试集。图像分辨率为640 × 512。原始序列中的图像总数约为80000张。IRC - B中的175条训练序列保持不变将IRC - B测试集的前150条序列作为验证序列后25条序列作为测试序列。我们在包括MultiUAV红外数据集(陈晓, 2025)和UAVSwarm可见光数据集( Wang et al , 2022)在内的真实数据集上进行了一系列对比和泛化实验。2、要解决的问题在数据层面,准确标注的真实场景样本稀缺且采集成本高昂;在算法层面,则主要难点在于如何应对由目标高度密集聚类、频繁遮挡以及目标反复出现所导致的身份切换问题。【1】基于SORT 的跟踪方法(如BoT-SORT、ByteTrack 及DeepSORT)通过联合建模外观嵌入(ReID)与运动信息,提升了标准场景下的目标识别保持率。 然而,在高密度红外无人机影像场景中,这些方法仍存在两个主要局限:(1)它们高度依赖初始检测框的质量,当检测数据缺失时,会导致遮挡恢复过程中的轨迹中断(2) 其运动模型基于线性卡尔曼滤波,因此无法有效应对无人机的突发性和非线性机动。在密集热红外无人机跟踪场景中,目标热信号极易受到环境干扰的影响。在拥挤环境下,严重的遮挡效应以及轨迹关联过程中的混淆问题仍未得到解决。3、提出的创新点为解决这些难题,本文提出了一种创新的红外伪样本生成方案——通过设计基于物理机制的异构交互退化模型(HIDM),该模型利用背景与目标间的协同退化机制模拟真实红外成像过程(涵盖多种耦合退化因素),并结合随机轨迹生成策略,生成大规模物理特性真实的伪样本数据,显著提升了数据的领域适应性。在此基础上,我们进一步提出了分层融合关联跟踪框架——EnBoT-SORT。该框架采用YOLOv12作为强大的目标检测器,并创新性地将动态目标密度调节器、混合特征关联引擎及轨迹连续性增强模块整合至BoTSORT中,有效保障了目标ID的连续性和稳定性。【1】在算法层面,EnBoT-SORT基于YOLOv12高效的检测能力,通过集成场景密度调节器和轨迹连续性增强器进行了改进。该框架能动态调整关联阈值以抑制高密度干扰,并利用非线性运动补偿与遮挡恢复策略解决身份切换问题,从而为红外密集型无人机跟踪任务提供从数据生成到算法优化的闭环解决方案。3.1 层次化融合-关联追踪首先,让我们分析为何选择YOLOv12和Bot-SORT作为本文中的基线方法。YOLOv12是YOLO系列中最先进的检测器,集成了残差高效层聚合网络(R-ELAN、FlashAttention、空间感知模块以及采用7×7大核可分离卷积的可扩展感受野。这使得其在保持低延迟的同时实现了以注意力为中心的架构, 并显著提升了目标定位精度,尤其适用于中小型目标。BoT-SORT是一 种基于ByteTrack的改进型多目标跟踪算法,它利用SORT框架结合卡尔曼滤波器(Jiang 与 Wu, )及相机运动补偿(CMC)模块,有效抑制由相机移动引起的虚假位移干扰。BoT-SORT-ReID通过融合四种不同ReID架构的深度外观特征,并借助多路径判别学习增强目标区分能力,进一步提升了外观特征关联性能。3.2 总体框架所提出的分层融合关联跟踪框架EnBoT-SORT如图5所示。输入的视N频帧首先经过YOLOv12n检测器处理以获得初始检测结果{}其中每个检测结果dt(x,y,w,h,c,f)包含目标中心坐标(x;y)、宽度与高度(w;h)、置信度分数以及通过FastRelD提取的128维外观特征(He等2023a)。动态目标密度调节器随后根据目标分布密度对高/低置信度检测结果进行过滤。经过滤波处理的检测结果首先通过FastRelD进行外观特征提取以进行初步关联匹配并生成初始轨迹;同时系统会估算相机运动参数用于二次关联匹配。混合特征关联引擎随后通过整合运动特征与外观特征实现精确匹配而轨迹连续性增强器。则采用短期线性预测与长期二次预测相结合的双重预测机制确保时空一致性。最终轨迹管理模块执行四项关键操作:更新卡尔曼滤波器参数、刷新目标外观特征数据库、创建新轨迹以及移除无效轨迹从而输出稳定的跟踪结果。3.3 动态靶标浓度调节器BoT-SORT算法采用固定的置信度阈值来筛选检测结果,但在面对小型密集目标时存在明显局限性。具体而言,这种固定阈值难以适应目标空间分布的非均匀性特征,导致稀疏区域漏检率较高,而密集区域则出现大量误报。这种僵化的过滤策略实质上忽视了场景动态复杂性与过滤置信度之间的内在关联——尤其是在目标尺寸差异显著且空间分布不均的红外无人机目标场景中。因此,本文通过建立了场景复杂度与置信度之间的自适应映射关系。具体而言,即场景中的平均目标距离或目标密度首先进行计算,其中和分别表示感兴趣区域的面积和目标数量。基于设置动态置信度阈值以过滤检测结果。具体而言,动态阈值可通过以下公式定义:其中表示基础置信阈值;调整因子根据与之间的间隔计算得出。在目标密度较高时增大以避免过多的误检,而在目标密度较低时减小以确保目标被完全检测。这种动态调整机制可提升跟踪器在不同场景条件下的性能。3.4 混合特征关联引擎在BoT - SORT中由运动相似度矩阵和外观相似度矩阵构造的复合相似度矩阵可以表示为其中α和β是固定的融合参数。由于红外小型无人机目标的外观特征变化不大在初始跟踪阶段应更多地关注短距离外观特征在稳定跟踪阶段应更多地关注远距离运动特征使得固定的α和β不适合红外小型无人机跟踪任务。因此我们通过引入轨迹可靠性因子α ( t )来改进BoT - SORT对和的直接关联方法以实现外观和运动信息的时间最优融合。修正后的复合相似度矩阵变为其中轨迹可靠性因子α ( t )定义为其中和表示权重边界和控制转移边界σ ( . )表示Sigmoid函数。计算结果显示在初始跟踪阶段t20帧时α ( t )≈0.642;而在稳定跟踪阶段t50帧期间α ( t )大约为0.776。这表明这一控制过程特别适用于我们的跟踪任务。3.5 轨迹连续性增强由于高速运动目标的遮挡和随后的再次出现导致的目标丢失问题是不可避免的。虽然BoTSORT引入了基于外观特征的重识别但其依赖单一的线性卡尔曼滤波方法在高密度目标场景下对长时间遮挡会引入显著的轨迹关联误差和状态估计偏差。因此EnBoT - SORT提出了一种混合预测模型来解决红外密集场景中的遮挡-重现问题。具体地给定历史轨迹位置序列其中表示第k帧中的目标位置坐标则平均运动速度向量计算为对于短时丢失轨迹( Δt≤10)采用带有随机扰动的直线运动模型式中ε表示服从分布( 0.4,1 . 1 )的随机扰动。对于长时间丢失轨迹( 10 Δt≤30)采用基于运动轨迹曲率分析的二次模型其中加速度通过拟合历史5帧轨迹来估计。实验表明Δt 30的目标将被重新分配一个新的ID。无论遮挡是短期还是长期EnBoT - SORT通过比较缓存特征与新检测目标的特征相似度采用融合策略进行重识别验证。一旦成功的重识别被确认EnBoT - SORT平滑地恢复了轨迹状态。它不仅更新当前的位置信息而且在遮挡期间根据预测进行合理的插值来完成轨迹历史保持轨迹的时空连续性。恢复的轨迹继承了原始的ID和属性信息。4、结论与不足4.1 不足虽然EnBoT - SORT在无人机跟踪任务中表现出优异的性能但在一般的多目标密集跟踪场景中仍表现出一定的局限性。首先该框架在处理高速运动目标时轨迹预测精度往往会下降。第二在极端密集场景下目前的外观特征匹配机制对相似目标的区分能力有限这可能导致身份切换频率增加。此外算法在嵌入式设备等资源受限环境下的实时性仍需优化。针对上述不足本文拟从以下几个方面对算法进行改进( 1 )引入自适应运动模型通过在线动态调整运动建模策略增强对非线性运动的适应性( 2 )发展更具判别性的细粒度特征表示方法结合时空上下文信息提高相似目标之间的区分度( 3 )通过轻量级网络设计和推理加速技术优化模型的计算效率增强算法在边缘设备上的部署可行性。4.2 结论在我们的研究中我们解决了热红外密集无人机跟踪领域的两个关键挑战即数据和算法困难。我们提出了一种伪样本生成方法和分层关联跟踪框架。HIDM通过尺度-运动-可见性三阶段物理退化链结合随机多目标轨迹生成和自适应图像融合重建ISPRS Journal of Photogrammetry and Remote Sensing 232 ( 2026 ) 138 ~ 154 152真实红外背景和目标退化得到高保真IRT - B和IRC - B伪样本数据集。 EnBoT - SORT创新性地将动态目标密度调节器、混合特征关联引擎和轨迹连续性增强与最先进的YOLOv12检测器集成在一起以实现鲁棒跟踪。大量的跨模态验证实验证明了伪样本数据和EnBoT - SORT框架的可推广性和可靠性为密集无人机跟踪建立了一种新的数据-算法协同优化范式。虽然有效但我们的伪样本生成方法需要在极端气象条件建模(例如,暴雨、浓雾等)和时间运动特征提取方面进行改进。未来的工作将结合大气散射模型来增强退化真实感和光流信息以加强短期遮挡处理能力。