空御科技在《信号处理》“低空信息感知与管控专刊I”刊发论文：基于多模态信息融合的无人机探测技术

转载 2026-06-12 14:51 空御科技

编者按·低慢小探测专刊

受物理边界与复杂环境的多重制约，在低慢小目标的探测上，单一传感器已经很难独挑大梁。因此，多模态信息融合也从一道“可选题”变成了“必选项”。2026年5月，《信号处理》期刊“低空信息感知与管控”专刊I正式刊发了由我司（成都空御科技有限公司）作为第一完成单位的综述文章。在文章中，科研团队系统梳理了雷达、光电、无线电与音频等单一探测手段的各自优势与互补条件，并沿着决策层→特征层→混合层的技术演进路线，拆解了当下的主流范式和未来大有可为的智能化探测方向。全文如下：

基于多模态信息融合的无人机探测技术综述

1 引言

近日，工业和信息化部、科学技术部、财政部、中国民用航空局印发《通用航空装备创新应用实施方案（2024—2030 年）》，提出到 2030 年，推动低空经济形成万亿级市场规模，强调加快关键核心技术突破，攻克精准定位，提升空域保持能力和可靠被监视能力。随着低空经济的快速发展，全球无人机保有量激增，这一趋势在推动物流、农业等领域创新的同时，也带来了严峻的低空安全挑战。近年来，低慢小“黑飞”无人机干扰民航事件不断增长，俄乌冲突更凸显了无人机在军事领域的威胁性。各国政府正加速完善监管体系，我国多地发布关于促进低空经济高质量发展的指导意见，明确要求建立“技防+人防”的立体管控网络，欧美则通过立法授权对威胁无人机实施硬拦截。反无人机技术发展已成为平衡低空经济发展与公共安全的关键支点，亟需突破多模态探测、智能决策等核心技术瓶颈。

随着空域管制的逐步开放，低慢小无人机应用场景的多元化发展使得其潜在威胁日益凸显，这对低慢小无人机精准探测技术提出了更高的要求。当前主流的低慢小无人机探测技术体系主要包含的四类方法：基于电磁波反射原理的雷达探测技术、基于光学成像的光电感知技术、基于通信信号的无线电侦测技术，以及基于声学特征的音频识别技术。这些技术手段各具优势，共同构成了多维度、立体化的无人机探测解决方案。此外，随着通信感知一体化的技术深化，5G-A 能够有效支持低空无人机的实时探测、感知和监管，实现对低空空域的精确管理，保障空中安全。然而，单一的探测模式虽各具优势，但存在性能边界。雷达技术可实现全天候、远距离探测，但易受地形和干扰影响，且在识别小尺寸目标时可能存在漏报和误报；光电技术可通过提取光谱特征实现高分辨率图像的目标识别和追踪，但在对于远距离弱小运动目标容易跟丢；无线电侦测能够捕获通信信号，但难以应对静默飞行的无人机；音频识别可实现被动探测，但探测距离有限。在实际应用中，需要综合运用多种技术，以实现探测能力的互补。近年来，随着多场景应用单一模态局限性凸显及多源信息融合技术的发展，无人机的探测模式逐渐发展为多模态融合的探测技术。该技术通过结合多种探测手段，增强信息互补性和冗余性，实现多势态全域感知，能够有效克服单一手段的不足。

多模态探测信息融合技术的发展经历了从决策层融合、特征层融合到混合层融合的演进过程。决策层融合主要关注各个单一模态探测结果的综合；特征层融合则着重于在特征提取阶段对多模态数据进行整合；而混合层融合则是在不同层次上灵活运用融合策略，以获得最优的探测效果。

在深度学习算法和多传感器融合技术日益成为研究重点的背景下，高质量、多样化且具有代表性的数据集对于算法的开发、验证和性能评估具有不可或缺的重要性。因此，构建更完善的多模态无人机数据集，研发更全面的无人机多模态探测信息融合技术已经成为近年来的重要发展趋势。

本文从无人机探测领域的多模态融合角度出发，总结了多模态探测信息融合的技术原理，梳理了多模态探测信息融合技术的发展脉络，分析了当前领域相关的公开数据集，最后对当前存在的问题进行分析，提出一种解决方案，展望未来的研究方向与发展趋势。

2当前探测与融合技术概览

2.1 单一探测技术局限

针对本文所界定的低慢小民用多旋翼无人机，当前主流的单一探测技术均存在明确的性能边界。雷达技术利用电磁波反射原理对无人机进行检测和位置测量，但对小目标易漏报、误报。“低慢小”无人机多采用碳纤维、塑料等非金属机身，雷达散射截面普遍低于0.01m2，极易被地杂波、气象杂波淹没，其运动特征与低空鸟类高度重合，是漏报、误报问题的核心根源。通过分析无人机的微多普勒特征，可在无人机整体运动的多普勒信号中检测到由螺旋桨运动产生的特征从而进行分类。雷达具有远距离全天候探测能力，适用于大范围监控，是目前对空目标的主流探测手段。然而，雷达系统可能会将具有相似雷达截面的鸟类误识为无人机，这一问题在面对与鸟类雷达散射截面、运动特征高度相似的无人机时尤为突出，会直接导致探测系统虚警率大幅升高，丧失稳定探测能力。光电探测技术利用无人机材料对光波的反射和辐射特性，通过红外和可见光技术进行视觉检测，适用于高精度探测识别，机器学习和深度学习算法的引入，提升了光电探测在复杂背景下的目标识别任务的能力。然而，光电技术基于多光谱成像，受光线条件限制，适合近距离精确监控，例如随着探测距离的增加，环境背景的复杂度显著提升，无人机可能与背景融为一体而难以有效区分。无线电探测技术通过捕捉无人机的无线电信号，可以有效地捕捉2.4GHz、5.2GHz和5.8GHz频段的信号，并识别出属于无人机的特定信号。该方法在实时性和检测范围上具有优势，尤其适合在广域范围内进行监控，适用于特定场所如大型活动场地或军事设施。然而，无线电在穿透障碍物时容易产生信号衰减，且易受外部电磁的干扰。此外，无线电探测技术通常不能有效探测采用静默飞行模式的无人机，也无法识别那些未被纳入无线电侦测频谱库的无人机信号。而静默飞行、自定义跳频通信正是新型无人机常用的反探测手段，预编程自主飞行的无人机可全程关闭信号发射，直接导致无线电探测失效，形成致命探测盲区。音频探测技术通过捕捉无人机飞行过程中产生的噪声，利用声学传感器接收、采集、分析这些噪声，实现对无人机的探测和预警。音频探测在夜间或光照条件不佳的情况下仍能有效工作，但受环境噪声的干扰，影响探测准确率。例如，商业消费级无人机在城镇嘈杂环境下，其噪声难以被探测到。而新型“低慢小”消费级无人机普遍配备低噪声桨叶设计，本身声纹特征极弱，在城镇环境中其噪声会被环境本底噪声完全淹没，也容易丧失探测能力。音频技术虽成本低廉但覆盖范围有限，主要用于辅助探测。表1对比了雷达、光电、无线电和音频四种主流无人机探测技术的优缺点。

2.2 多模态融合技术发展

为了实现多源异构信息的有机结合，提升系统的总体性能和可靠性，近年来研究人员对多模态融合技术开展了大量研究，图1展示了近十年来多模态融合发文数量变化。目前，主流的多模态融合技术主要分为三个层次：决策层融合、特征层融合和混合层融合。决策层融合技术将系统对不同源输出的决策信息进行加权融合，显著提升系统的适应能力和探测效率。特征层融合时，系统侧重于多传感器获得的目标特征信息的整合。利用先进+的特征提取及模式识别技术整合来自不同源的特征信息，在识别和分类目标时达到更高的准确性。数据层融合时，将来自不同传感器的原始数据进行集成和精细处理。通过复杂的数据预处理与分析算法，形成更全面和可靠的探测结果。这一方法不仅要求高效的数据融合算法以确保实时性与精度，还应在处理大量数据时保持系统的鲁棒性。特征层与数据层的融合技术均会在提取不同模态信息的特征后立即进行融合，与决策层有着显著的差异，因此本文将特征层融合与数据层融合均归为特征层融合。另外，从多模态融合的发展脉络来看，无人机多模态探测信息融合技术分为三个关键发展阶段：决策层融合阶段、特征层融合阶段和混合层融合阶段。目前多模态融合技术主要在交通管控、协同制导、自动驾驶、通信等探测领域中得到广泛应用，如表2所示。

3 无人机多模态探测信息融合技术概览

3.1 决策层多源感知信息融合

决策层融合是一种多模态融合方法，它通过综合各个模态独立决策的结果来得出最终决策。这一过程可以通过预定义的数学公式或为不同模态的结果分配不同权重来实现。决策层融合方法将不同传感器探测识别结果进行加权融合（如图2 所示），其优点在于提升系统的鲁棒性，压缩信息，减少传输和处理的数据量。常见的决策层融合策略包括但不限于投票法、加权平均法和多数表决法。

表3归纳了现有的采用决策层融合的探测方法。其中，文献提出一种BeamLearning 技术，通过结合光电和音频传感器，实现了对DJI 系列无人机的高精度3D定位，其绝对3D误差小于7%，准确率超过90%。文献提出一种基于运动目标跟踪的自监督网络，利用声学信息引导视觉信息进行无人机探测，该方法在减少数据计算量的同时提升了探测效率，但可能因融合阶段较晚导致探测准确率降低。随后，文献提出的MUTES系统通过整合光电、音频和激光雷达传感器，采用从粗到细的定位策略，实现了对广义无人机的高精度探测，其方位均方根误差和高度均方根误差均控制在较低水平。文献提出一种IMM-BLUE算法，显著提高了对广义无人机的距离和方位探测精度，其中距离均方根误差为93m，方位均方根误差为0.31°。此外，文献通过航迹融合与航迹关联技术，成功实现了超过90%的正确相关率，有效提升了运动目标的跟踪能力。层次化分布式数据融合结构和分布式容错扩展信息滤波算法在文献中得到应用，不仅提高了目标的定位精度，还增强了系统的容错功能，确保了在部分传感器故障或受到干扰时系统的稳定运行。文献提出了Deep‐lomatic系统，通过结合声学传感器、光电设备和人工智能技术，实现了对无人机的高精度三维定位和识别，提高了探测的准确性，并增强了系统在不同环境条件下的适应能力，在OASyS²项目对探测距离的评估中，进一步增强了广义无人机的探测能力，其探测距离可达150~250m。文献针对传统多模态目标检测依赖严格空间配准的问题，提出非空间配准条件下的多模态目标检测任务及决策融合方法，非配准场景下漏检率最大降低10.03%，配准场景中较DAMSDet等先进方法精度提升6.8%，兼具鲁棒性与通用性。文献结合了YO‐LOv2、GMM、LSTM 等算法，在雷达、光电、ADS-B和GPS 传感器的融合探测应用中，实现了对广义无人机、民航客机、直升机、鸟等目标的高效探测，其中红外、可见光和音频的F1-score分别达到了76.01%、78.49%和93.23%。决策层融合减少了融合需要的数据计算量，显著提升探测效率，同时便于使用更多模态的传感器进行探测，但由于融合阶段较晚，导致原始探测信息的大量损失，使得探测准确率大大降低，亟须一种兼顾效率与准确率的信息融合方法。

3.2 特征层多模态探测信息融合

特征层融合是一种多模态数据整合方法，其核心在于在数据输入模型之前进行融合处理。该过程涉及将来自不同模态的原始数据或从中提取的特征进行综合（如图 3 所示），从而构建一个统一的、多维度的表征。这个综合表征随后作为模型的输入，为后续的分析和决策提供更全面的信息基础。在无人机目标探测时，不同传感器能够采集到不同模态的数据，而这些原始数据往往无法直接进行融合，如红外与可见光的图像融合通常需要经过一定的处理并提取相应的特征进行融合。而在图像融合中，图像特征以矩阵、向量等数据的形式存在，导致特征层与数据层之间的界限相对模糊，但可以确切地说，在无人机探测领域，特征层与数据层的融合技术均会在提取不同模态信息的特征后立即进行融合，与决策层有着显著的差异，本文将特征层融合与数据层融合均归为特征层融合。特征层融合的优点在于充分利用信息的冗余性与互补性，信息损失少，识别准确率高。特征层融合在探测效率和准确率上均提升显著，近年来得到广泛研究。

表4 归纳了现有的采用特征层融合的探测方法。文献提出的Dual-YOLOv3 模型，通过将红外与可见光图像同时输入到深度残差网络中进行特征提取和融合，展示了深度学习技术在无人机探测中的潜力和应用前景，其平均精度达到了98.85%。文献提出了一种基于快速超分辨率重建（Fast Super-Resolution Convolutional Neural Network，FSRCNN）算法和多尺度融合超分辨率重建算法（Multi-Scale Fusion Super-Resolution Recon‐struction Network，MFSRCNN），验证了该算法在重建无人机目标详细信息方面的可行性，平均置信度提升了6.72%。文献设计了多光谱交互注意力融合模块，实现了红外和可见光特征的深度聚合，在mul-UAV 数据集上的平均精度达到了68 .1%，显著提升了探测准确率。随后，文献提出了一种基于改进YOLOv8 的双模态中期融合检测算法，设计可见光红外融合模块（Visible-Infrared Fusion Module，VIFM），在红外与可见光双模态输入下，该算法在DroneVehicle 数据集上的平均精度相较于单可见光与单红外模态检测分别提升了 16.53%和18.36%。进一步地，文献系统探究了融合模块在网络中的位置对性能的影响，提出了前端（Frontend Fusion Detection Network，FFDN）、中端（Middle-end Fusion Detection Network，MFDN）与后端（Back-end Fusion Detection Network，BFDN）三种融合框架，在DroneVehicle 数据集上，该方法的平均精度达到 80.0%，相较于单一红外与可见光输入分别提升了14.78%与12.99%。此外，文献扩展了传感器范围，提出了结合无线电侦测、雷达、光电和声学等传感器的综合探测和跟踪方法，通过分别提取不同模态的特征互补各传感器的优势，显著提高了系统的探测跟踪能力和精度。尽管如此，如何在实时处理中有效融合如此多的异构数据仍然是一个亟待解决的问题。文献提出了一种基于卷积神经网络（Convolutional Neural Network， CNN）的多模态融合方法，结合光学图像、雷达距离-多普勒图和音频频谱图，通过多项式logistic 回归融合CNN 输出概率，该方法在无人机检测和分类任务中取得了显著的性能提升，检测速度和平均精度都有显著提升。文献提出了一个射频—视觉定向融合框架，通过联合校准阵列天线与相机实现射频信号与图像的对齐，并设计了基于图像分割的去噪方法（Image Segmentation-based Denoising U-Net，ISD-UNet）以提升方位角估计精度。在自建射频—视觉无人机数据集上的实验表明，该框架在保持高召回率的同时，实现了87 .8%的AP@50，相较于纯视觉方法YOLOv5在相同数据集上提升了约9%。此外，该框架在雾天、遮挡及多干扰目标（如鸟类、直升机）场景下均表现出较强的鲁棒性，验证了射频模态在提升视觉定位可靠性方面的有效互补性。

3.3 混合层多模态探测信息融合

混合层融合方法是一种创新性的多模态数据整合策略，它巧妙地结合了特征层融合和决策层融合的优势。混合层融合技术由多个传感器的原始探测信息经由特征提取模型处理后，输入信息融合模块；融合后的信息通过推理模型生成多个识别结果，最终在决策模块综合这些识别结果，做出最终决策（如图4 所示）。这种方法不仅保持了系统的高性能，还提供了根据具体应用场景和融合复杂度灵活选择最优组合的可能性。通过在不同层次上进行融合，混合层方法能够在保持数据丰富性的同时，实现更为精确和更具鲁棒性的决策过程。

表5归纳了现有的采用混合层融合的探测方法。文献提出了一种多模态混合层融合概念，利用 Dempster-Shafer（DS）算法和多传感器网络（Multi-Sensor Networks，MSNs），首先，在第一阶段获取目标特征信息；随后，在信息融合阶段结合相邻节点交换的信息与本地测量信息，实现高精度机动目标身份信息的获取；最后，通过识别信息得到目标的精确状态估计，其均方根误差（Root Mean Square Error，RMSE）达到了相对最低水平。文献设计了一种自适应融合策略，通过定义模型训练参数动态调整不同模态的权重，根据输入图像的特性自动调整融合策略，显著提高了融合的灵活性和有效性，其在广义无人机数据集上的平均精度达到了38.26%。文献则结合计算机视觉和雷达信号处理技术，提出了基于数据级融合和决策级融合的两层融合策略，通过YOLOv3模型在不同环境下最高提升了9 .5%的准确率。文献通过搭建CNN框架，融合声学、图像/视频和无线射频信号，实现了对恶意无人机的鲁棒检测和分类，加权平均法F1-score达到了97.46%，显著提高了系统处理复杂数据的能力和对新型或未知无人机的识别能力。文献通过结合相机与激光雷达，实现了低成本的全向感知，通过对高精度低频率的激光雷达数据与低精度高频率的视觉数据进行融合，有效验证了该方法在目标位置估计与追踪方面的有效性。研究表明，混合层融合方法能够有效地结合不同传感器的优势，提高无人机探测的准确性，理论上能够进一步提升融合效率，有待进一步验证。中国电信联合北京邮电大学开展的“射频+光学”多模态融合低空通感一体外场试验，是典型特征层与决策层混合层融合工程实践。针对射频信号与视频图像在数据结构和时序上差异巨大的挑战，系统并未强行进行鲁棒性较差的像素级融合，而是采用了特征联合增强与跨模态轨迹融合的混合策略。系统先在特征层分别提取射频模态的目标运动特征与光学模态的视觉纹理特征，再在决策层通过时空关联算法完成航迹级融合，最终实现了对无人机的连续、稳定跟踪。试验量化结果表明，该混合融合方案相较射频、光学单模态感知实现了显著性能提升：通过特征联合增强算法，对无人机、气球等典型低空目标的检测概率达95%以上；双目标测距误差小于1.5m，目标轨迹完整性均达95%以上；同时基于6G通感一体波形设计，通信峰值速率达2.8Gbps，充分验证了混合层融合架构在实际低空安防场景中的可行性。但该混合融合方案仍存在明确的性能边界，存在无法稳定探测的场景：一是非视距完全遮挡场景，当目标处于楼宇密集区、障碍物完全遮蔽基站视距时，射频感知无法获取有效散射信号，光学模态也无法捕获目标成像，混合融合失去双模态特征输入，无法完成目标检测与跟踪；二是极端恶劣气象与光照场景，在浓雾霾、强雷暴等超出光学传感器成像极限的环境中，光学模态无法提取有效纹理特征，仅靠射频单模态无法支撑决策层的跨模态关联，易出现轨迹断裂与误检。研究表明，混合层融合方法能够灵活结合不同层级融合的优势，充分发挥不同传感器的性能互补性，有效提高无人机探测的准确性与鲁棒性，理论上能够进一步提升融合效率；而工程化试验中暴露的性能边界，也印证了该类方法仍需在极端场景鲁棒性优化等方向开展进一步的研究与验证。

4 多模态融合探测的典型工程应用案例

多模态融合技术不仅在理论与算法层面取得了显著突破，近年来更逐步从实验室走向规模化工程应用，广泛服务于国内多地的要地防护与城市低空安全治理，并取得了确切的实战成效。以下几个典型案例充分验证了该技术在复杂场景下的工程可行性与巨大应用价值。

4.1 广西机场群：多模态侦测与“技人结合”的净空防护

自2023 年起，广西8 个机场逐步部署了多模态无人机侦测系统。该系统针对民航净空区复杂的本底环境，采用“雷达+光电+频谱”的组合融合侦测模式。在实际应用中，系统不仅依靠底层特征融合解决远距离微小目标的发现难题，还创新性地搭配夜间肉眼识别与数字望远镜，形成完善的防控体系。实战运行以来，该系统有效提升了夜间对目标的识别率，联合公安部门成功处置多起群众举报的 “黑飞”线索，彻底杜绝了因无人机干扰导致的航班延误与备降事件，显著提升了机场净空保护的协同效能。

4.2 浙江杭州奥体中心：融合“安保无人机”的AI全自动监测与网捕

针对大型场馆安保中传统人工反制“响应慢、识别难”的痛点，浙江移动协同公安部门在杭州奥体中心验证了低空“黑飞”AI全自动监测处置系统。该系统以“中移凌云”平台为核心，深度融合了5G-A、雷达、光电等异构多源探测数据。在验证中，多模态感知网络精准捕获入侵目标后，AI算法立即进行轨迹预测，并自主调度搭载气动网枪的 “安保无人机”升空拦截。依靠雷达与光电的多源实时引导，“安保无人机”实现了最快25m/s的空中精准网捕。这一“网捕协同”模式将发现到处置的时间由人工模式的15min 压缩至60s以内，处置成功率提升至99%以上，标志着低空安防向全天候、高可靠的自动化演进。

4.3 山东烟台：基于通感一体与TDOA 的城市低空监管底座

在城市复杂核心区，非视距遮挡严重制约了传统单一雷达的发挥。烟台联通利用C-BAND（3 .5GHz）网络，成功落地了一套以多模态感知融合为核心的低空安全底座。该体系创新性地将充当“雷达模态”的5G-A主动探测（利用基站设备的协同反射感知）与充当“无线电频谱模态”的到达时间差（Time Difference of Arrival，TDOA）被动定位技术进行跨模态融合。实测数据显示，该通感融合网络在垂直张角约88°、拉远1.2 km 的范围内，实现了不间断的轨迹跟踪，水平与垂直定位精度分别优于5m和2m。同时，被动无线电TDOA 技术的融入不仅弥补了主动探测在复杂楼宇间的盲区，还能通过解析通信协议准确定位地面的飞手位置，实现了从目标三维追踪到源头反制干预的端到端闭环管理。

上述案例表明，多模态融合技术已从单一的理论算法走向规模化的工程应用，展现出了在复杂电磁环境与多样化安防需求下的强大适应性与广阔前景。

5 公开数据集

随着多模态探测信息融合技术的发展，高质量数据集的构建成为推动开发多模态探测大模型的关键。当前公开的无人机探测数据集中，视频图像数据占据主导地位，这主要归因于其相对低廉的采集成本和成熟的计算机视觉技术。表6梳理了近年来公开的用于反无人机的多模态数据集，均以低慢小民用多旋翼无人机为采集目标，覆盖机型以大疆消费级多旋翼无人机为主，与实际防控场景中的主流“黑飞”机型高度契合，与本文的研究对象范围完全匹配。2017年，文献公开了无人机图像数据集Public-Domain&USC drone dataset，包括30个YouTube视频序列，实现无人机的检测与跟踪。2021年文献提出的数据集Drone-vs-Bird De ‐ tection Challenge 2021对无人机与鸟类进行了区分。随着图像融合技术得到广泛应用，特别是在应对低可见度条件和夜间任务时，多光谱融合技术，尤其是红外光的应用日益普及。文献构建了基于红外与可见光探测的无人机数据集AntiDrone，同时将无人机多机型进行分类。然而，光电图像仍受制于天气条件、环境遮挡以及探测距离与成本之间的指数关系等因素。2021年文献在光电探测数据的基础上加入了音频探测数据，但由于其有效探测距离有限，易受环境噪声干扰，且难以精确区分不同机型，容易对探测效果造成负面影响。文献公开了基于可见光探测的数据集DUT-Anti-UAV，对无人机飞行轨迹检测进行了探索。文献拓展了多模态传感器的种类，收集了可见光、无线电和音频数据，包含3种不同机型的无人机。目前，传感器种类最为丰富的数据集MMAUD包含了立体相机、多种激光雷达、雷达和音频阵列等多种传感器，同时包含4种无人机机型以及环境噪声序列。然而，该数据集中使用的传感器探测距离普遍较短（如立体相机

资讯

空御科技在《信号处理》“低空信息感知与管控专刊I”刊发论文：基于多模态信息融合的无人机探测技术

相关资讯