当前位置: 首页 > news >正文

YOLO系列论文综述(从YOLOv1到YOLOv11)【第15篇(完结):讨论和未来展望】

总结

  • 0 前言
  • 1 YOLO与人工通用智能(AGI)
  • 2 YOLO作为“能够行动的神经网络”
  • 3 具身人工智能(EAI)
  • 4 边缘设备上的YOLO
  • 5 评估统计指标的挑战
  • 6 YOLO与环境影响


YOLO系列博文:

  1. 【第1篇:概述物体检测算法发展史、YOLO应用领域、评价指标和NMS】
  2. 【第2篇:YOLO系列论文、代码和主要优缺点汇总】
  3. 【第3篇:YOLOv1——YOLO的开山之作】
  4. 【第4篇:YOLOv2——更好、更快、更强】
  5. 【第5篇:YOLOv3——多尺度预测】
  6. 【第6篇:YOLOv4——最优速度和精度】
  7. 【第7篇:YOLOv5——使用Pytorch框架、AutoAnchor、多尺度预训练模型】
  8. 【第8篇:YOLOv6——更高的并行度、引入量化和蒸馏以提高性能加速推理】
  9. 【第9篇:YOLOv7——跨尺度特征融合】
  10. 【第10篇:YOLOv8——集成检测、分割和跟踪能力】
  11. 【第11篇:YOLO变体——YOLO+Transformers、DAMO、PP、NAS】
  12. 【第12篇:YOLOv9——可编程梯度信息(PGI)+广义高效层聚合网络(GELAN)】
  13. 【第13篇:YOLOv10——实时端到端物体检测】
  14. 【第14篇:YOLOv11——在速度和准确性方面具有无与伦比的性能】
  15. 【第15篇(完结):讨论和未来展望】

0 前言

本文研究了十几个个YOLO版本,从最初的YOLO模型到最新的YOLOv8。通过对比,我们可以确定几个关键的模式:

  • 锚Anchor:最初的YOLO模型相对简单,没有采用锚点,而最先进的模型则依赖于带有锚点的两阶段检测器。YOLOv2采用了锚点,从而提高了边界盒的预测精度。这种趋势持续了五年,直到YOLOX引入了一个无锚的方法,取得了最先进的结果。从那时起,随后的YOLO版本已经放弃了锚的使用;
  • 框架:最初,YOLO是使用Darknet框架开发的,后续版本也是如此。然而,当Ultralytics将YOLOv3 移植到PyTorch时,其余的YOLO版本都是使用PyTorch开发的,导致了增强功能的激增。另一个利用的深度学习语言是PaddlePaddle,一个最初由百度开发的开源框架;
  • 骨干Backbone:YOLO模型的骨干架构随着时间的推移发生了重大变化。从由简单的卷积层和最大集合层组成的Darknet架构开始,后来的模型在YOLOv4中加入了跨阶段部分连接(CSP),在YOLOv6和YOLOv7中加入了重新参数化,并在DAMO-YOLO中加入了神经架构搜索;
  • 性能:虽然YOLO模型的性能随着时间的推移有所提高,但值得注意的是,它们往往优先考虑平衡速度和准确性,而不是只关注准确性。这种权衡是YOLO框架的一个重要方面,允许在各种应用中进行实时物体检测。

预计YOLO变体将继续改进对小目标物体的检测性能,特别是在进入如精密制造等更专业领域时。可以结合注意力机制以增强小物体检测,而视觉变换器的使用则可能进一步提高YOLO捕捉全局上下文依赖关系的能力,这一趋势表明需要在保持高精度的同时满足严格帧率要求的轻量级架构上进行改进。随着YOLO的发展,满足细分应用需求将推动架构设计和优化的进一步创新,确保其在对精确度和效率有严格要求的领域中持续相关性。例如,通过像ChatGPT这样的模型来促进语音命令与监控系统的集成,可以改变安全机制,使其更加互动和响应迅速。在医疗保健领域,结合医学影像、历史患者数据和实时症状描述,可以显著提高医疗响应的个性化和准确性。

展望未来,YOLO适应多模态进步的能力将在开创下一代智能应用方面发挥关键作用。从既能解释路标又能理解行人手势的自动驾驶汽车,到能根据视觉线索和语音指令做出反应的智能家居,YOLO与更广泛的数据类型和更深层次的上下文理解相结合,预示着人工智能的一个划时代阶段。这一变革阶段有望大幅提高机器视觉系统的交互性和认知能力,标志着视觉过程自动化的一个关键转变。

1 YOLO与人工通用智能(AGI)

AGI指的是具有人类水平或更高智能的智能代理,能够解决各种复杂问题。YOLO作为专注于目标检测的专业AI,突出了处理和解释视觉数据的关键能力,成为AGI的一个关键组成部分。一个AGI系统需要将类似于YOLO的目标检测与其他认知能力(如自然语言理解和推理)结合起来,以实现实时执行各种任务。例如,配备AGI的机器人可以使用YOLO进行视觉识别,以导航并与环境互动,同时利用自然语言模型来理解和响应口头指令。这种集成将展示出类似人类能力的多功能性和通用智能,使AGI系统能够无缝执行复杂且多样化的任务,从而更接近实现真正的AGI。

2 YOLO作为“能够行动的神经网络”

这一代神经网络以其先进的视觉和语言能力令人惊叹,推动了AI感知和解释能力的边界。然而,下一代神经网络将不仅限于理解,还能在实时中采取行动并执行任务。YOLO准备在这个转型中扮演关键角色。它在目标检测中的无与伦比的速度和准确性使其成为需要即时响应的应用的理想选择,如自动驾驶、机器人技术和实时监控。随着我们走向一个AI不仅能看、能说,还能自主执行复杂任务的未来,YOLO将在连接感知与行动之间起到关键作用。其中一个项目是“BEHAVIOUR”,这是一个以人为中心的模拟基准,用于评估斯坦福大学[287]的具身AI解决方案。

3 具身人工智能(EAI)

具身人工智能(EAI)是指与物理实体或身体集成的AI系统,允许它们以更自然和类人的方式与真实世界互动。将YOLO整合进这些系统中可以显著增强它们的感官能力,使它们能够更高效和准确地与物理世界互动。YOLO在具身AI中的应用包括自动驾驶车辆、机器人、人机交互、医疗保健等。

4 边缘设备上的YOLO

YOLO在边缘设备上的部署为未来的研发开辟了几条有希望的道路。一个潜在的方向是通过进一步的优化技术,如模型剪枝、量化以及开发专门的硬件加速器,提高算法在超低功耗微控制器和嵌入式系统等更为受限环境中的效率和准确性。此外,将YOLO与高级通信协议和边缘计算框架集成,可以促进边缘设备与集中式云服务之间的无缝协作,提升整体系统性能和可扩展性。探索YOLO与其他AI驱动功能(如异常检测和预测分析)的集成,可能在医疗保健、智慧城市和工业自动化等领域解锁新的应用。随着边缘计算的不断发展,YOLO适应支持联邦学习范式的调整,可以在保障数据隐私的同时实现对象检测模型的持续学习和改进。这些未来方向不仅会扩大YOLO的能力,还会大大推进智能边缘计算系统的发展。

5 评估统计指标的挑战

威胁:依赖单一的统计汇总指标来衡量YOLO的检测能力可能无法全面反映系统在各种YOLO应用中的表现,因此需要使用多个指标。
缓解:尽管存在这一局限性,我们的主要前提是所选指标使我们能够比较不同的YOLO系统,并充分评估它们的整体有效性。在跨不同应用综合评估检测系统时,认识到统计摘要固有的局限性至关重要。因此,我们旨在通过公开承认这些潜在威胁来提高评审的清晰度和可靠性,这种方法提供了一个对YOLO技术在不同领域中目标检测各方面限制的更细致的理解。

6 YOLO与环境影响

训练和重新训练YOLO非常耗能,导致大量的能源和水资源消耗,以及显著的二氧化碳排放。这种环境影响凸显了关于AI发展可持续性的担忧,强调了迫切需要更有效的做法来减少大规模模型训练的生态足迹。

相关文章:

YOLO系列论文综述(从YOLOv1到YOLOv11)【第15篇(完结):讨论和未来展望】

总结 0 前言1 YOLO与人工通用智能(AGI)2 YOLO作为“能够行动的神经网络”3 具身人工智能(EAI)4 边缘设备上的YOLO5 评估统计指标的挑战6 YOLO与环境影响 YOLO系列博文: 【第1篇:概述物体检测算法发展史、YO…...

Java设计模式 —— 【创建型模式】原型模式(浅拷贝、深拷贝)详解

文章目录 前言原型模式一、浅拷贝1、案例2、引用数据类型 二、深拷贝1、重写clone()方法2、序列化 总结 前言 先看一下传统的对象克隆方式: 原型类: public class Student {private String name;public Student(String name) {this.name name;}publi…...

SciAssess——评估大语言模型在科学文献处理中关于模型的记忆、理解和分析能力的基准

概述 大规模语言模型(如 Llama、Gemini 和 GPT-4)的最新进展因其卓越的自然语言理解和生成能力而备受关注。对这些模型进行评估对于确定其局限性和潜力以及促进进一步的技术进步非常重要。为此,人们提出了一些特定的基准来评估大规模语言模型…...

SQLModel与FastAPI结合:构建用户增删改查接口

SQLModel简介 SQLModel是一个现代化的Python库,旨在简化与数据库的交互。它结合了Pydantic和SQLAlchemy的优势,使得定义数据模型、进行数据验证和与数据库交互变得更加直观和高效。SQLModel由FastAPI的创始人Sebastin Ramrez开发,专为与FastA…...

【RISC-V CPU debug 专栏 2.3 -- Run Control】

文章目录 Run ControlHart 运行控制状态位状态信号操作流程时间与实现注意事项Run Control 在 RISC-V 调试架构中,运行控制模块通过管理多个状态位来对硬件线程(harts)的执行进行调节和控制。这些状态位帮助调试器请求暂停或恢复 harts,并在 hart 复位时进行控制。以下是运…...

探索 IntelliJ IDEA 中 Spring Boot 运行配置

前言 IntelliJ IDEA 作为一款功能强大的集成开发环境(IDE),为 Spring Boot 应用提供了丰富的运行配置选项,定义了如何在 IntelliJ IDEA 中运行 Spring Boot 应用程序,当从主类文件运行应用程序时,IDE 将创建…...

三除数枚举

给你一个整数 n 。如果 n 恰好有三个正除数 ,返回 true ;否则,返回 false 。 如果存在整数 k ,满足 n k * m ,那么整数 m 就是 n 的一个 除数 。 输入:n 4 输出:true 解释:4 有三…...

【051】基于51单片机温度计【Proteus仿真+Keil程序+报告+原理图】

☆、设计硬件组成:51单片机最小系统DS18B20温度传感器LCD1602液晶显示按键设置蜂鸣器LED灯。 1、本设计采用STC89C51/52、AT89C51/52、AT89S51/52作为主控芯片; 2、采用DS18B20温度传感器测量温度,并且通过LCD1602实时显示温度;…...

[Java]微服务之服务保护

雪崩问题 微服务调用链路中的某个服务故障,引起整个链路中的所有微服务都不可用,这就是雪崩 雪崩问题产生的原因是什么? 微服务相互调用,服务提供者出现故障或阻塞。服务调用者没有做好异常处理,导致自身故障。调用链中的所有服…...

自动驾驶目标检测融合全貌

1、early fusion 早期融合,特点用到几何空间转换3d到2d或者2d到3d的转换,用像素找点云或者用点云找像素。 2、deep fusion 深度融合,也是特征级别融合,也叫多模态融合,如bevfusion范式 3、late fusion 晚融合&#x…...

消息框(Message Box)的测试方法和测试用例

我来帮你了解消息框(Message Box)的测试方法和测试用例的编写。 我已经创建了一个测试用例示例,让我为你解释消息框测试的主要方面: 测试维度: 功能性测试:验证消息框的基本功能是否正常样式测试:确认不同类型消息框…...

Ubuntu 包管理

APT&dpkg 查看已安装包 查看所有已经安装的包 dpkg -l 查找包 apt search <package_name>搜索软件包列表&#xff0c;找到与搜索关键字匹配的包 dpkg与grep结合查找特定的包 dpkg -s <package>&#xff1a;查看某个安装包的详细信息 安装包 apt安装命令 更新…...

[Ubuntu] linux之Ubuntu18.04的下载及在虚拟机中详细安装过程(附有下载链接)

前言 ubuntu 链接&#xff1a;https://pan.quark.cn/s/283509d0d36e 提取码&#xff1a;dfT1 链接失效&#xff08;可能被官方和谐&#xff09;可评论或私信我重发 下载压缩包后解压 &#xff01;&#xff01;安装路径不要有中文 下载后解压得到.iso文件&#xff0c;不要放在…...

ffmpeg安装(windows)

ffmpeg安装-windows 前言ffmpeg安装路径安装说明 前言 ffmpeg的安装也是开箱即用的,并没有小码哥说的那么难 ffmpeg安装路径 这就下载好了! 安装说明 将上面的bin目录加入到环境变量,然后在cmd中测试一下: C:\Users\12114\Desktop\test\TaskmgrPlayer\x64\Debug>ffmpe…...

服务器数据恢复—raid6阵列硬盘被误重组为raid5阵列的数据恢复案例

服务器存储数据恢复环境&#xff1a; 存储中有一组由12块硬盘组建的RAID6阵列&#xff0c;上层linux操作系统EXT3文件系统&#xff0c;该存储划分3个LUN。 服务器存储故障&分析&#xff1a; 存储中RAID6阵列不可用。为了抢救数据&#xff0c;运维人员使用原始RAID中的部分…...

linux内核编译启动总结

linux kernel 编译 升级汇总 写在前面内核编译获取kernel代码开始前的准备工作 编译过程1\.解压与净化将下载好的linux内核解压至/usr/src 2\. 得到源代码后,将其净化3\. 配置要进行编译的内核4.编译内核. &#xff08;15分钟&#xff09;5.编译模块.方法1:方法2&#xff1a; 6…...

Android Studio的AI工具插件使用介绍

Android Studio的AI工具插件使用介绍 一、前言 Android Studio 的 AI 工具插件具有诸多重要作用&#xff0c;以下是一些常见的方面&#xff1a; 代码生成与自动补全 代码优化与重构 代码解读 学习与知识获取 智能搜索与资源推荐实际使用中可以添加注释&#xff0c;解读某段代…...

本地部署 WireGuard 无需公网 IP 实现异地组网

WireGuard 是一个高性能、极简且易于配置的开源虚拟组网协议。使用路由侠内网穿透使其相互通讯。 第一步&#xff0c;服务端&#xff08;假设为公司电脑&#xff09;和客户端&#xff08;假设为公司外的电脑&#xff09;安装部署 WireGuard 1&#xff0c;点此下载&#xff08;…...

asyncio.ensure_future 与 asyncio.create_task:Python异步编程中的选择

asyncio.ensure_future 与 asyncio.create_task&#xff1a;Python异步编程中的选择 引言asyncio.ensure_futureasyncio.create_task两者的区别参数接受范围任务调度的保证代码可读性 哪个更好&#xff1f;使用asyncio.create_task使用asyncio.ensure_future 结论参考 引言 在…...

CTF之密码学(密码特征分析)

一.MD5,sha1,HMAC,NTLM 1.MD5&#xff1a;MD5一般由32/16位的数字(0-9)和字母(a-f)组成的字符串 2.sha1&#xff1a;这种加密的密文特征跟MD5差不多&#xff0c;只不过位数是40&#xff08;sha256&#xff1a;64位&#xff1b;sha512:128位&#xff09; 3.HMAC&#xff1a;这…...

JVM调优篇之JVM基础入门AND字节码文件解读

目录 Java程序编译class文件内容常量池附录-访问标识表附录-常量池类型列表 Java程序编译 Java文件通过编译成class文件后&#xff0c;通过JVM虚拟机解释字节码文件转为操作系统执行的二进制码运行。 规范 Java虚拟机有自己的一套规范&#xff0c;遵循这套规范&#xff0c;任…...

EXCEL截取某一列从第一个字符开始到特定字符结束的字符串到新的一列

使用EXCEL中的公式进行特定截取 假设列A是一组产品的编码&#xff0c;我们需要的数据是“-”之前的字段。 我们需要在B1单元格输入公式“LEFT(A1,SEARCH("-",A1)-1)”然后选中B1至B4单元格&#xff0c;按“CTRLD”向下填充&#xff0c;就可以得出其它几行“-”之前的…...

数据库期末复习题库

1. Mysql日志功能有哪些? 记录日常操作和错误信息&#xff0c;以便了解Mysql数据库的运行情况&#xff0c;日常操作&#xff0c;错误信息和进行相关的优化。 2. 数据库有哪些备份方法 完全备份&#xff1a;全部都备份一遍表备份&#xff1a;只提取数据库中的数据&#xff0…...

私有库gitea安装

一 gitea是什么 Gitea是一款自助Git服务&#xff0c;简单来说&#xff0c;就是可以一个私有的github。 搭建很容易。 Gitea依赖于Git。 类似Gitea的还有GitHub、Gitee、GitLab等。 以下是安装步骤。 二 安装sqilite 参考&#xff1a; 在windows上安装sqlite 三 安装git…...

关于最近win11不能使用ie,而不能使用考试客户端的解决方法

弄ie的那个我感觉是非常难的&#xff0c;所以我的是另一种的方法 下载360浏览器&#xff08;不是360全家桶&#xff09;360安全浏览器-全面保护上网安全&#xff0c;4亿用户共同选择&#xff08;上面的是官网&#xff0c;不要下载错了&#xff0c;还有安装界面注意不要勾选一下…...

深度学习之Mask-R-CNN

1.1 Mask-RCNN 的网络结构示意图 其中黑色部分为原来的Faster-RCNN&#xff0c;红色部分为在Faster网络上的修改&#xff1a;    1&#xff09;将ROI Pooling层替换成了ROIAlign&#xff1b;    2&#xff09;添加并列的FCN层&#xff08;Mask层&#xff09;&#xff1b;  …...

css包含块

包含块 出现 在css中一些属性的计算可能超出你的预料&#xff0c;在普遍情况下会认为定位属性和百分比的宽高是根据父元素计算的&#xff0c;但是准确来说他们都是根据元素所在的包含块来计算的&#xff0c;所以掌握包含块的知识是非常关键的。 内容 在CSS中&#xff0c;“…...

混沌工程/混沌测试/云原生测试/云平台测试

背景 私有云/公有云/混合云等具有复杂&#xff0c;分布式&#xff0c;环境多样性等特点&#xff0c;许多特殊场景引发的线上问题很难被有效发现。所以需要引入混沌工程&#xff0c;建立对系统抵御生产环境中失控条件的能力以及信心&#xff0c;提高系统面对未知风险得能力。 …...

研发设计数字化:PLM、PDM、ERP介绍及其区别

一、产品全生命周期管理的定义 1.1 产品全生命周期&#xff08;PLM&#xff09;发展背景 目前&#xff0c;数字化设计与制造的技术&#xff08;如CAX、DFX等&#xff09;已经在产品开发中得到广泛应用&#xff0c;而各种企业和产品管理软件&#xff08;如ERP、SCM、PDM、CRM等…...

Python练习51

Python日常练习 题目&#xff1a; 调用函数fun判断一个三位数是否“水仙花数”。 在main函数中从键盘输入一个三位数&#xff0c;并输 出判断结果。请编写fun函数。 说明&#xff1a; 所谓“水仙花数”是指一3位数&#xff0c;其各位数字立方和 等于该数本…...

怎样创建网站域名平台/小程序推广50个方法

一、为什么要有Unsfae、我们为什么要了解这个类1. java通常的代码无法直接使用操作底层的硬件&#xff0c;为了使java具备该能力&#xff0c;增加了Unsafe类2.java的并发包中底层大量的使用这个类的功能&#xff0c;了解这个类有助于了解java 并发包&#xff0c;理解为什么并发…...

安徽省建设工程安全协会网站/百度数据指数

Dream ADA-128是将近20年前就成为Prism Sound旗舰级数模/模数转换器的ADA-8XR的次时代新旗舰&#xff0c;具备巨大数量的接口&#xff0c;超强的性能&#xff0c;且可同时连接Dante、AES3、Pro Tools HDX和MADI这些数字接口。看名字就知道了&#xff0c;Dream ADA-128最大支持1…...

福田附近网站建设/哪家网络营销好

重复的任务总是耗费时间和枯燥的。想象一下&#xff0c;逐一裁剪100张照片&#xff0c;或者做诸如Fetching APIs、纠正拼写和语法等任务&#xff0c;所有这些都需要大量的时间。为什么不把它们自动化呢&#xff1f;在今天的文章中&#xff0c;我将与你分享10个Python自动化脚本…...

3d 网站设计/网络营销案例分析题及答案

1. 调优金字塔 架构调优&#xff1a;采用更适合业务场景的架构能最大程度地提升系统的扩展性和可用性。在设计中进行垂直拆分能尽量解耦应用的依赖&#xff0c;对读 压力比较大的业务进行读写分离能保证读性能线性扩展&#xff0c;而对于读写并发压力比较大的业务在 MySQL 上也…...

中关村网站建设公司/网络优化培训

这里的电压环带宽&#xff0c;反应的是电压环响应指令能力。即输出电压跟踪指令电压的能力。 指令响应能力需要有一个指标来衡量&#xff0c;例如用输入阶跃指令来看输出的上升、超调等 或者用输入正弦指令看输出正弦分量与指令的幅度差和相位差&#xff0c;这就是我们说的带…...

应届生招聘去哪个网站/北京官网seo

文章目录1.处理客户端删除状态请求1.1 InstanceResource.deleteStatusUpdate()1.2 PeerAwareInstanceRegistryImpl.deleteStatusOverride()1.3 AbstractInstanceRegistry.deleteStatusOverride()1.4 PeerAwareInstanceRegistryImpl.replicateToPeers()1.处理客户端删除状态请求…...