当前位置：首页 > news >正文

YOLO系列论文综述（从YOLOv1到YOLOv11）【第9篇：YOLOv7——跨尺度特征融合】

news 2025/7/8 16:03:41

YOLOv7

1 摘要
2 网络架构
3 改进点
4 和YOLOv4及YOLOR的对比

YOLO系列博文：

【第1篇：概述物体检测算法发展史、YOLO应用领域、评价指标和NMS】
【第2篇：YOLO系列论文、代码和主要优缺点汇总】
【第3篇：YOLOv1——YOLO的开山之作】
【第4篇：YOLOv2——更好、更快、更强】
【第5篇：YOLOv3——多尺度预测】
【第6篇：YOLOv4——最优速度和精度】
【第7篇：YOLOv5——使用Pytorch框架、AutoAnchor、多尺度预训练模型】
【第8篇：YOLOv6——更高的并行度、引入量化和蒸馏以提高性能加速推理】
【第9篇：YOLOv7——跨尺度特征融合】
【第10篇：YOLOv8——集成检测、分割和跟踪能力】
【第11篇：YOLO变体——YOLO+Transformers、DAMO、PP、NAS】
【第12篇：YOLOv9——可编程梯度信息(PGI)+广义高效层聚合网络(GELAN)】
【第13篇：YOLOv10——实时端到端物体检测】
【第14篇：YOLOv11——在速度和准确性方面具有无与伦比的性能】
【第15篇（完结）：讨论和未来展望】

1 摘要

发表日期：2022年7月
作者：Wong Kin-Yiu, Alexey Bochkovskiy, Chien-Yao Wang
论文：YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
代码：https://github.com/WongKinYiu/yolov7
主要优缺点：
- 在COCO数据集上达到新的速度与精度平衡；
- 跨尺度特征融合提高对不同尺度物体的检测能力；
- 改进训练过程中的标签分配方式提高训练效率。

2 网络架构

2022年7月，YOLOv7由YOLOv4和YOLOR的同一组作者发布在ArXiv上。当时，它在5 FPS到160 FPS的速度范围内，在速度和精度上超过了所有已知的目标检测器。与YOLOv4一样，它仅使用MS COCO数据集进行训练，而没有使用预训练的Backbone。YOLOv7提出了一些架构上的改进和一系列bag-of-freebies，这些改进提高了准确性，但不影响推理速度，只增加了训练时间。

下图展示了YOLOv7的详细架构。

网络架构

3 改进点

YOLOv7的架构变化包括：

扩展高效层聚合网络（E-ELAN）：ELAN是一种通过控制最短最长梯度路径，使深度模型能够更高效地学习和收敛的策略。YOLOv7提出了E-ELAN，适用于具有无限堆叠计算块的模型。E-ELAN通过打乱和合并基数来结合不同组的特征，增强网络的学习能力，而不破坏原始的梯度路径。
基于拼接模型的模型缩放：通过调整一些模型属性生成不同大小的模型。YOLOv7的架构是基于拼接的架构，在这种架构中，标准的缩放技术（如深度缩放）会导致过渡层输入通道和输出通道之间的比例变化，从而导致模型硬件利用率的下降。YOLOv7提出了一种新的缩放策略，其中块的深度和宽度以相同的因子缩放，以保持模型的最佳结构。

YOLOv7中使用的bag-of-freebies包括：

计划重参数化卷积：类似于YOLOv6，YOLOv7的架构也受到重参数化卷积（RepConv）[98] 的启发。然而，他们发现RepConv中的恒等连接会破坏ResNet [61] 中的残差和DenseNet [109] 中的拼接。因此，他们移除了恒等连接，并将其称为RepConvN。
辅助头的粗标签分配和主头的细标签分配：主头负责最终输出，而辅助头则帮助训练。
卷积-批量归一化-激活中的批量归一化：这将批量归一化的均值和方差集成到卷积层的偏置和权重中，以便在推理阶段使用。
受YOLOR启发的隐性知识。
**指数移动平均（EMA）**作为最终推理模型。

4 和YOLOv4及YOLOR的对比

YOLOv7相对于同一组作者开发的先前YOLO模型的改进如下：

与YOLOv4相比，YOLOv7参数量减少了75%，计算量减少36%，同时AP提高了1.5%。
与YOLOv4-tiny相比，YOLOv7-tiny分别减少了39%的参数量和49%的计算量，同时保持了相同的AP。
与YOLOR相比，YOLOv7分别减少了43%的参数量和15%的计算量，并且AP略微提高了0.4%。

在MS COCO 2017测试开发集上的评估显示，YOLOv7-E6在输入尺寸为1280像素的情况下，在NVIDIA V100上以50 FPS的速度达到了55.9%的AP和73.5%的AP50。

YOLO系列论文综述（从YOLOv1到YOLOv11）【第9篇：YOLOv7——跨尺度特征融合】

YOLOv7 1 摘要2 网络架构3 改进点4 和YOLOv4及YOLOR的对比 YOLO系列博文： 【第1篇：概述物体检测算法发展史、YOLO应用领域、评价指标和NMS】【第2篇：YOLO系列论文、代码和主要优缺点汇总】【第3篇：YOLOv1——YOLO的开山之作】【第…...

编程日记 2024/12/1 18:50:24

Elasticearch索引mapping写入、查看、修改

作者：京东物流陈晓娟一、ES Elasticsearch是一个流行的开源搜索引擎，它可以将大量数据快速存储和检索。Elasticsearch还提供了强大的实时分析和聚合查询功能，数据模式更加灵活。它不需要预先定义固定的数据结构，可以随时添加或修…...

编程日记 2024/12/1 18:49:22

【大模型微调】一些观点的总结和记录

垂直领域大部分不用保持通用能力的，没必要跟淘宝客服聊天气预报，但是主要还是领导让你保持微调方法没有大变数了，只能在数据上下功夫，我能想到的只有提高微调数据质量。 sft微调的越多，遗忘的越多. 不过对于小任务，rank比较低（例如8，16）的任务，影响还是有有限的。一…...

编程日记 2024/12/1 18:42:16

Vue 3 Hooks 教程

Vue 3 Hooks 教程 1. 什么是 Hooks？ 在 Vue 3 中，Hooks 是一种组织和复用组件逻辑的强大方式。它们允许您将组件的状态逻辑提取到可重用的函数中，从而简化代码并提高代码的可维护性。 2. 基本 Hooks 介绍 2.1 ref 和 reactive 这两个函数…...

编程日记 2024/12/1 18:37:10

pandas数据处理及其数据可视化的全流程

Pandas数据处理及其可视化的全流程是一个复杂且多步骤的过程，涉及数据的导入、清洗、转换、分析、可视化等多个环节。以下是一个详细的指南，涵盖了从数据准备到最终的可视化展示的全过程。请注意，这个指南将超过4000字，因此请耐心…...

编程日记 2024/12/1 18:36:09

docker 在ubuntu系统安装，以及常用命令，配置阿里云镜像仓库，搭建本地仓库等

1.docker安装 1.1 先检查ubuntu系统有没有安装过docker 使用 docker -v 命令如果有请先卸载旧版本，如果没有直接安装命令如下： 1.1.0 首先，确保你的系统包是最新的： 如果是root 权限下面命令的sudo可以去掉 sudo apt-get upda…...

编程日记 2024/12/1 18:35:08

torch.maximum函数介绍

torch.maximum 函数介绍定义：torch.maximum(input, other) 返回两个张量的逐元素最大值。输入参数： input: 张量，表示第一个输入。other: 张量或标量，表示第二个输入。若为张量，其形状需要能与 input 广播。输出&a…...

编程日记 2024/12/1 18:33:06

Java面试之多线程并发篇（9）

前言本来想着给自己放松一下，刷刷博客，突然被几道面试题难倒！引用类型有哪些？有什么区别？说说你对JMM内存模型的理解？为什么需要JMM？多线程有什么用？似乎有点模糊了，那…...

编程日记 2024/12/1 18:30:02

Java全栈：超市购物系统实现

项目介绍本文将介绍如何使用Java全栈技术开发一个简单的超市购物系统。该系统包含以下主要功能：商品管理用户管理购物车订单处理库存管理技术栈后端 Spring Boot 2.7.0Spring SecurityMyBatis PlusMySQL 8.0Redis前端 Vue.js 3Element PlusAxiosVuex系统架构整体架构 …...

编程日记 2024/12/1 18:29:01

1.1 数据结构的基本概念

1.1.1 基本概念和术语一、数据、数据对象、数据元素和数据项的概念和关系数据：是客观事物的符号表示，是所有能输入到计算机中并被计算机程序处理的符号的总称。数据是计算机程序加工的原料。数据对象：是具有相同性质的数据元素的集合&…...

编程日记 2024/12/1 18:26:55

深度学习：GPT-2的MindSpore实践

GPT-2简介 GPT-2是一个由OpenAI于2019年提出的自回归语言模型。与GPT-1相比，仍基于Transformer Decoder架构，但是做出了一定改进。模型规格上： GPT-1有117M参数，为下游微调任务提供预训练模型。 GPT-2显著增加了模型规模&…...

编程日记 2024/12/1 18:24:51

【Oracle11g SQL详解】ORDER BY 子句的排序规则与应用

ORDER BY 子句的排序规则与应用在 Oracle 11g 中，ORDER BY 子句用于对查询结果进行排序。通过使用 ORDER BY，可以使返回的数据按照指定的列或表达式以升序或降序排列，便于数据的分析和呈现。本文将详细讲解 ORDER BY 子句的规则及其常见应用…...

编程日记 2024/12/1 18:21:48

YOLO系列论文综述（从YOLOv1到YOLOv11）【第15篇（完结）：讨论和未来展望】

总结 0 前言1 YOLO与人工通用智能（AGI）2 YOLO作为“能够行动的神经网络”3 具身人工智能（EAI）4 边缘设备上的YOLO5 评估统计指标的挑战6 YOLO与环境影响 YOLO系列博文： 【第1篇：概述物体检测算法发展史、YO…...

编程日记 2024/12/1 18:20:47

Java设计模式 —— 【创建型模式】原型模式（浅拷贝、深拷贝）详解

文章目录前言原型模式一、浅拷贝1、案例2、引用数据类型二、深拷贝1、重写clone()方法2、序列化总结前言先看一下传统的对象克隆方式： 原型类： public class Student {private String name;public Student(String name) {this.name name;}publi…...

编程日记 2024/12/1 18:19:39

SciAssess——评估大语言模型在科学文献处理中关于模型的记忆、理解和分析能力的基准

概述大规模语言模型（如 Llama、Gemini 和 GPT-4）的最新进展因其卓越的自然语言理解和生成能力而备受关注。对这些模型进行评估对于确定其局限性和潜力以及促进进一步的技术进步非常重要。为此，人们提出了一些特定的基准来评估大规模语言模型…...

编程日记 2024/12/1 18:16:34

SQLModel与FastAPI结合：构建用户增删改查接口

SQLModel简介 SQLModel是一个现代化的Python库，旨在简化与数据库的交互。它结合了Pydantic和SQLAlchemy的优势，使得定义数据模型、进行数据验证和与数据库交互变得更加直观和高效。SQLModel由FastAPI的创始人Sebastin Ramrez开发，专为与FastA…...

编程日记 2024/12/1 18:13:32

【RISC-V CPU debug 专栏 2.3 -- Run Control】

文章目录 Run ControlHart 运行控制状态位状态信号操作流程时间与实现注意事项Run Control 在 RISC-V 调试架构中，运行控制模块通过管理多个状态位来对硬件线程（harts）的执行进行调节和控制。这些状态位帮助调试器请求暂停或恢复 harts，并在 hart 复位时进行控制。以下是运…...

编程日记 2024/12/1 18:11:30

探索 IntelliJ IDEA 中 Spring Boot 运行配置

前言 IntelliJ IDEA 作为一款功能强大的集成开发环境（IDE），为 Spring Boot 应用提供了丰富的运行配置选项，定义了如何在 IntelliJ IDEA 中运行 Spring Boot 应用程序，当从主类文件运行应用程序时，IDE 将创建…...

编程日记 2024/12/1 18:08:26

三除数枚举

给你一个整数 n 。如果 n 恰好有三个正除数 ，返回 true ；否则，返回 false 。如果存在整数 k ，满足 n k * m ，那么整数 m 就是 n 的一个除数。输入：n 4 输出：true 解释：4 有三…...

编程日记 2024/12/1 18:07:24

【051】基于51单片机温度计【Proteus仿真+Keil程序+报告+原理图】

☆、设计硬件组成：51单片机最小系统DS18B20温度传感器LCD1602液晶显示按键设置蜂鸣器LED灯。 1、本设计采用STC89C51/52、AT89C51/52、AT89S51/52作为主控芯片； 2、采用DS18B20温度传感器测量温度，并且通过LCD1602实时显示温度；…...

编程日记 2024/12/1 18:06:22

铭豹扩展坞 USB转网口突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别，但在其他电脑上正常工作时，问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤，帮助你快速找到故障原因：背景：一个M-pard（铭豹）扩展坞的网卡突然无法识别了，扩展出来的三个USB接口正常。…...

编程新知 2025/7/7 5:19:14

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务中文乱码问题： 下面创建一个简单的Flask RESTful API示例。首先，我们需要创建环境，安装必要的依赖，然后…...

编程新知 2025/7/8 3:58:36

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

树莓派摄像头高级使用方法配置通过调谐文件来调整相机行为使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包文章来源： http://raspberry.dns8844.cn/documentation 原文网址配置大多数用例自动工作，无需更改相机配置。但是，一…...

编程新知 2025/7/8 11:06:54

MongoDB学习和应用(高效的非关系型数据库)

一丶 MongoDB简介对于社交类软件的功能，我们需要对它的功能特点进行分析： 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具： mysql：关系型数据库&am…...

编程新知 2025/7/7 0:36:58

c++ 面试题(1)-----深度优先搜索（DFS）实现

操作系统：ubuntu22.04 IDE:Visual Studio Code 编程语言：C11 题目描述地上有一个 m 行 n 列的方格，从坐标 [0,0] 起始。一个机器人可以从某一格移动到上下左右四个格子，但不能进入行坐标和列坐标的数位之和大于 k 的格子。例…...

编程新知 2025/7/6 20:47:25

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测；从基础到高级，涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术，可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势，还能有效评价重大生态工程…...

编程新知 2025/7/6 4:52:27

【OSG学习笔记】Day 16: 骨骼动画与蒙皮（osgAnimation）

骨骼动画基础骨骼动画是 3D 计算机图形中常用的技术，它通过以下两个主要组件实现角色动画。骨骼系统 (Skeleton)：由层级结构的骨头组成，类似于人体骨骼蒙皮 (Mesh Skinning)：将模型网格顶点绑定到骨骼上，使骨骼移动…...

编程新知 2025/7/8 11:34:16

汇编常见指令

汇编常见指令一、数据传送指令指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX（不访问内存）XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...

编程新知 2025/7/4 10:27:56

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程四、Thread类的核心…...

编程新知 2025/6/27 3:48:34

Springboot社区养老保险系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，社区养老保险系统小程序被用户普遍使用，为方…...

编程新知 2025/7/8 11:38:00

YOLOv7

1 摘要

2 网络架构

3 改进点

4 和YOLOv4及YOLOR的对比

相关文章：