Skip to content

Latest commit

 

History

History
135 lines (104 loc) · 10.4 KB

File metadata and controls

135 lines (104 loc) · 10.4 KB

2025-YOLO|RTDETR多模态目标检测项目

对于当今的视觉任务来说,最简单入手的便是YOLO系列,通过ultralytics库的帮助下,无论是否来自计算机科班的同学基本都可以快速构建自己的目标检测模型。但是与简单方便相伴而来的是现在的YOLO系列模型的整体拒稿率越来越高,甚至与很多期刊或导师看到YOLO四个字便直接Reject,即使组合出性能优异的检测模型也难以发表到心仪的期刊上去,因此单靠单模态的YOLO发有点要求的期刊已经开始显得有些吃力。很多人尝试转向RT-DETR模型,对于从YOLO迁移过去的人来说一样简单好用,但是RTDETR的训练成本要比YOLO系列模型略高,因此对于部分没有服务器/自费服务器的同学来说可能有点难接受。虽然单模态的YOLO确实显得吃力,但是多模态的YOLO就不是这样了,从去年开始多模态就开始慢慢火起来,但由于缺乏相对应的教程,让很多人望而止步,从去年到今年,也越来越多人问,有没有多模态相关的YOLO改进项目?别急,它终于要来了,而且还不止YOLO,RTDETR的多模态也有!

1. 这个项目包含什么内容?

  1. 这个项目主体思路是在尽可能的保证继承ultralytics库简单好用的基础上为YOLO与RT-DETR现阶段这两个最热门的目标检测器,提供出多模态的能力。<可以理解为YOLO|RTDETR的多模态进阶版>
  2. 这个项目的核心是在原有可见光(RGB图像的基础上)结合红外或深度图谱(以及其他对齐后的图张量数据)实现多模态信息结合的能力。
  3. 同时根据自身的工作经验,我们在项目中提供大量不同的多模态模型结构基础模型进行对应的实验选择。
  4. 在项目中我提供了灵活自由的模型配置方式<本项目基于Ultralytics的YOLO以及 RTDETR 模型进行对应的修改>通过使用不同的模型 yaml配置方式实现调用不同的模型配置结构,同时拥有几百个改进点的改进项目结合多模态直接起飞~
  5. YOLOMM 模型考虑支持目标检测,实例分割,旋转目标检测。姿态检测,分类。RTDETRMM 模型仅支持目标检测
  6. 项目内容提供深度模态,DEM 模态的生成。不提供红外模态的生成
  7. 本项目不提供非对齐多模态图像的支持,不提供模态配准的内容,不提供数据集。
  8. 本项目主要以代码+答疑群形式展开,教程稀少属于进阶项目,想要发表高水平期刊CCF会议的可以考虑本项目

2. 这个项目会以什么形式开展?

  1. 本次项目核心目的在于为大开箱即用的完善的图图多模态目标检测项目,由于架构设计的内容如果魔导的其他Ultralytics项目内的改进点也可以迁移到多模态项目中(例如v8v10、v11v12、rtdetr改进项目中)。
  2. 项目内我将提供多种不同形式,融合思路的模型配置,大家可以在其中选择一个进行改进创建。同时未来也会在项目中提供一些模块方便大家组合实验。
  3. 这个项目会以未来持续更新的态势进行扩展,包括支持更多多模态基础模型以及不同的实验功能,还有专属于多模态项目以及通用的改进模块。考虑到工作与时间上的问题这会是一个持续更新的过程,大家也不用着急。
  4. 附带答疑群,群里主要是答疑实验,代码操作,代码报错等问题。考虑到个人空闲时间问题不一定每一个问题都能及时回答,也可以在群里询问其他大佬的帮助。一些反复出现的高频问题也会收集录制对应的答疑视频来给大家解答。我本人也会在群里给一些多模态写作投稿的思路与建议。

3. 入手须知

  1. 本项目毕竟是为YOLO以及RT-DETR系列做的扩展,因此建议在已经有了ultralytics库的使用经验后来使用本项目。同时为了达到最佳效果,强烈建议搭配魔导的相关改进项目来配合使用。 以下人群非常不建议入手此项目:
  • 未入门、1000%计算机小白(可以考虑先补充相关的基础知识)。
  • 不想花时间学习,不想了解多模态结构,仅仅只想水论文。
  • 不喜欢看说明或使用文档的。
  • 没有跑过ultralytics 库经验的。
  1. 此项目不涉及多模态数据中的配准相关问题。
  2. 考虑到架构复杂性问题以及多模态结构的特殊性,所以不会考虑提供多模态的剪枝蒸馏在内。但是会考虑提供生成模态的办法作为数据集来源缺失的补充。(生成模态办法主要以深度方面,采用成熟深度学习代码包括一些顶会的工作进行相关模态生成。由于生成模态的作用因此可以在单一模态数据集上进行额外扩展,实现一集多用的办法同时避免配准的问题。)
  3. 本项目仅包含图像相关的多模态,不包含图像+文字的多模态。
  4. 本项目的环境建议在torch2.0以上版本跑。有一些专门的优化API调用。模型显存占用,体积会比单模态较大,但是不用担心,速度不会降低很多,依然是快速的训练。

4. 价格

  1. 本项目价格为288,购买过<YOLOV8V10改进项目>、<YOLO1112改进项目>、<RTDETR改进项目>、<ultralytics-26项目>其中之一的优惠50,优惠后价格为238。不叠加仅限本人使用。
  2. 虚拟项目一经售出不退不换,需要入手前考虑清楚,如果你是初次入手我的项目,怕我不靠谱,可以先考虑入手个YOLO和RTDETR看下。
  3. 如果确定需要购买的话,请把以下的内容原封不动复制给汤圆,“确定2购买5多模态3项目”

5. 项目使用问题

  1. 购买本项目的使用者都会得到一个独一无二的用于解压7z的密码,到时候用于解压对应的压缩包,此密码自己妥善保管,请勿告诉他人。
  2. 本项目的视频和直播回放统一都是加密视频,每个购买者都可以得到一个激活码,激活码在每个人专属的7z压缩文件内。

6. 项目闲谈

  1. 2026 年三月利用本项目新发表一篇计算机 SCIQ2,一篇 CCFC

7. 更新日志

2026年3月

  • 特征蒸馏系统:实现家族化output蒸馏、跨scale通道适配器与DFL分布蒸馏
  • 前景引导蒸馏:实现YOLOMM/RTDETRMM前景引导特征蒸馏目标生成与损失落地
  • 蒸馏可视化:完成output蒸馏可视化系统与蒸馏曲线绘图
  • 蒸馏工具:新增多模态蒸馏配置TUI工具,支持YAML自动查找和scale选择
  • 蒸馏修复:修复蒸馏指标显示、CWD数值稳定性与output_to_target问题
  • 文档完善:同步最终版单模态教师特征蒸馏协议与算法说明

2026年2月

  • 多任务预测器统一:新增OBB/Pose/Classify专用预测器和结果类
  • 推理适配器:添加YOLOMMOBBPredictor、YOLOMMPosePredictor、YOLOMMClassifyPredictor适配器
  • 分割支持增强:新增MultiModalSegmentResults/Predictor完善实例分割任务支持
  • 分类重构:使用LetterBox替代classify_transforms进行多模态分类
  • 批量推理:新增目录批量推理和strict_match匹配策略支持
  • 目录crop保存:支持实例crop保存功能与OBB结果增强

2026年1月

  • 推理API重构:重构推理引擎为显式双源输入并优化调试系统
  • 单模态推理:支持运行时NMS参数覆盖及YOLOv26检测头
  • RTDETR推理:新增RTDETR推理后处理支持及模型类型自动检测
  • COCO评估统一:统一COCO评估输出为标准val对齐格式并补充F1指标
  • 姿态估计增强:新增多模态Pose COCO评估支持(OKS + Box双维度)
  • 模态统一:统一modality的RGB/X token归一化并修复大小写分支问题
  • 工具增强:新增多模态数据集诊断与拆分工具、MultiModalSampler批量采样方法

2025年12月

  • 多模态旋转框(OBB)支持:新增训练/验证/预测脚本与 OBB 模型 YAML
  • 数据集加载修复:支持 .npz .npy 等文件形式加载
  • 离线模态生成器:新增 DepthGen 深度图生成器、DEM 特征生成器、EdgeGen 边缘模态生成器
  • 可视化系统增强:完善色彩空间与模态消融支持,增强分辨率控制与素材导出。
  • 模块新增:新增三十余个模块与其对应配置文件
  • MROD-YOLO:添加MROD-YOLO完整架构及MJRNet/RFEM/MSIA融合模块
  • RTDETRMM增强:扩展Transformer编码器架构变种和C2f骨干网络变体
  • YOLO26支持:新增YOLO26分割/旋转框/姿态估计任务头支持
  • 优化器创新:新增MuSGD混合优化器
  • 损失函数增强:新增YOLO26损失函数增强系统

2025年11月

  • 多模态路由:添加动态通道路由与预测器路由兼容性改进,并严格化单模态语义
  • 网络与配置扩展:新增 LSCD 轻量化检测头、SOEP 小目标增强颈部模块、门控融合模块,C3k2,C2PSA等变体模块并补充大量多模态 YAML 配置
  • 评估指标增强:移植/完善 COCO 评估,并扩展 COCO 尺寸分级 IoU 指标

2025年10月

  • 修复RTDETR多模态预测器bbox坐标归一化偏移问题
  • 修复RTDETRMM验证器tensor操作,完善RTDETRMM验证器的指标计算
  • 优化残差融合架构并统一版本标识系统

2025年9月

  • 多模态分割支持:实现YOLOMM多模态分割完整功能
  • 可视化系统重构:重构为组件化Pipeline架构
  • 性能优化:添加GFLOPs性能指标和统一profile接口
  • 修复YOLOMM任务自动检测与类型兼容性
  • YOLOv5/v9/v10多模态配置

2025年8月

  • 高级融合模块:实现SOTA融合算法(CTF多头交叉注意力、FFN FCM等)
    • FCM/FFN模块
    • DEYOLO系列:DEA、DECA、DEPA、BiFocus、C2f_BiFocus
    • CAM跨模态注意力机制
    • CTF多头交叉注意力
    • ICAFusion变体
    • RD架构模块
  • 对比学习系统:实现基础对比学习与特征捕获架构
  • 多模态增强:完成IR专属增强和深度增强系统
  • Wiki系统:构建项目内置文档说明系统
  • 路由系统优化:统一MultiModalRouter接管软填充与消融
  • 预测可视化重构:统一绘图组件与多模态输出
  • 强化FP32数值稳定性与调试系统

2025年7月

  • 可视化系统:实现完整Grad-CAM热力图和特征图可视化
  • COCO验证功能:实现COCOMetrics类和YOLO到COCO格式转换器
  • 可视化API统一:为YOLOMM和RTDETRMM添加vis()方法
  • 支持多层独立可视化和letterbox预处理
  • 修复多模态验证器参数显示问题