当前位置：首页 > news >正文

【深度学习】深度卷积神经网络（AlexNet）

news 2026/2/8 9:21:43

在 LeNet 提出后，卷积神经网络在计算机视觉和机器学习领域中很有名气，但并未起到主导作用。

这是因为 LeNet 在更大、更真实的数据集上训练的性能和可行性还有待研究。

事实上，在 20 世纪 90 年代到 2012 年之间的大部分时间里，神经网络往往被其他机器学习方法超越，如支持向量机。

在计算机视觉中，直接将神经网络与其他机器学习方法比较也许不太公平，因为卷积神经网络的输入是由原始像素值或是经过简单预处理的像素值组成。

而在使用传统机器学习方法时，从业者永远不会将原始像素作为输入。

在传统机器学习方法中，计算机视觉流水线是由经过人的精心设计的特征流水线组成的。

与训练端到端（从像素到分类结果）系统相比，经典机器学习的流水线看起来更像下面这样：

获取一个有趣的数据集（早期收集数据需要昂贵的传感器）。
根据光学、几何学及其他偶然发现，手工对特征数据集进行预处理。
通过标准的特征提取算法，如 SIFT（尺度不变特征变换）和 SURF（加速鲁棒特征）。
将提取的特征送入分类器中，以训练分类器。

对于机器学习研究人员来说，用优雅的理论去证明各种模型的性质是重要且美丽的；而对计算机视觉研究人员来说，推动领域进步的是数据特征，而不是学习算法。

计算机视觉研究人员相信，从对最终模型精度的影响来说，更大或更干净的数据集、或是稍微改进的特征提取，比任何学习算法带来的进步大得多。

一、学习表征

在 2012 年以前，图像特征都是机械地计算出来的。在当时，设计一套新的特征函数、改进结果，并撰写论文是主流。

另有一些研究人员有不同的想法，他们认为特征本身就应该被学习。

此外，他们还认为，在合理的复杂性前提下，特征应该由多个共同学习的神经网络层组成，每个层都有可学习的参数。

在机器视觉中，最底层可能检测边缘、颜色和纹理。由 Alex 等人（2012）提出的新的卷积神经网络变体 AlexNet 的最底层就学习到了一些类似于传统滤波器的特征抽取器。

AlexNet 的更高层建立在这些底层表示的基础上，表示出更大的特征，如眼睛、鼻子等等。

而更高的层可以检测整个物体，如人、飞机等等。最终的隐藏神经元可以学习图像的综合表示，从而使得属于不同类别的数据易于区分。

尽管一直有一群执着的研究者不断钻研，试图学习视觉数据的逐级表征，但很长一段时间都未能有所突破。

深度卷积神经网络的突破出现在 2012 年，可归因于两个因素：数据和硬件。

数据

包含许多特征的深度模型需要大量的有标签数据，才能显著优于基于凸优化的传统方法。

然而，限于早期计算机有限的存储和 90 年代有限的研究预算，大部分研究只基于小的公开数据集。

这一状况在 2010 年前后兴起的大数据浪潮中得到改善。2009 年，ImageNet 数据集发布，并发起 ImageNet 挑战赛，其推动了计算机视觉和机器学习研究的发展。

硬件

深度学习对计算资源的要求很高，训练可能需要数百个迭代轮数，每次迭代都需要通过代价高昂的许多线性代数层传递数据。

然而，用 GPU 训练神经网络改变了这一格局。图形处理器（Graphics Processing Unit, GPU）早年用来加速图形处理，使电脑游戏玩家受益。

GPU 可优化高吞吐量的 4$\times$4 矩阵和向量乘法，从而服务于基本的图形任务。幸运的是，这些数学运算与卷积层的计算惊人地相似。

相比于 CPU，GPU 的综合性能更强，内核也要简单得多，因此 GPU 更加节能。此外，深度学习的许多操作需要较高的内存带宽，而 GPU 拥有 10 倍于 CPU 的带宽。

回到 2012 年的重大突破，Alex 等人意识到卷积神经网络中的计算瓶颈：卷积和矩阵乘法，都是可以在硬件上并行化的操作。于是，他们使用 GPU 加快了卷积运算，推动了深度学习热潮。

二、AlexNet

2012 年，AlexNet 横空出世。它首次证明了学习到的特征可以超越手工设计的特征，一举打破了计算机视觉研究的现状。

AlexNet 使用了 8 层卷积神经网络，其架构和 LeNet 非常相似，如下图所示。

从 LeNet(左)到 AlexNet(右)

尽管它们的设计理念非常相似，但也存在显著差异：

AlexNet 相较于 LeNet-5 要深得多，其由 8 层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。
AlexNet 使用 ReLU 而不是 sigmoid 作为激活函数。

模型设计

在 AlexNet 的第一层，卷积窗口的形状是 11$\times$11，比 LeNet 中大得多。

这是因为 ImageNet 中使用的图像要比 MNIST 大得多，因此需要一个更大的卷积窗口来捕获目标。

第二层中的卷积窗口缩减为 5$\times $5 ，然后是 3$ \times $3 ，在第一层、第二层和第五层卷积层后，加入窗口形状为 3$ \times$3、步幅为 2 的最大汇聚层。而且，AlexNet 的通道数是 LeNet 的 10 倍。

AlexNet 将 sigmoid 激活函数改为更简单的 ReLU 激活函数。一方面，ReLU 激活函数的计算更为简单；另一方面，当使用不同的参数初始化方法时，ReLU 激活函数使训练模型更加容易。

容量控制和预处理

AlexNet 通过暂退法（Dropout）控制全连接层的模型复杂度，而 LeNet 只使用了权重衰减。

为了进一步扩充数据，AlexNet 在训练时增加了大量的图像增强数据，如翻转、裁切和变色。这使得模型更加健壮，更大的样本量有效地减少了过拟合。

net = nn.Sequential(                     # 定义模型# 这里使用一个11*11的更大窗口来捕捉对象。# 同时，步幅为4，以减少输出的高度和宽度。# 另外，输出通道的数目远大于LeNetnn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),# 减小卷积窗口，使用填充为2来使得输入与输出的高和宽一致，且增大输出通道数nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),# 使用三个连续的卷积层和较小的卷积窗口。# 除了最后的卷积层，输出通道的数量进一步增加。# 在前两个卷积层之后，汇聚层不用于减少输入的高度和宽度nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),nn.Flatten(),# 这里，全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合，暂退概率0.5nn.Linear(6400, 4096), nn.ReLU(),nn.Dropout(p=0.5),nn.Linear(4096, 4096), nn.ReLU(),nn.Dropout(p=0.5),# 最后是输出层。由于这里使用Fashion-MNIST，所以用类别数为10，而非论文中的1000nn.Linear(4096, 10))

数据集准备

即使在现代 GPU 上，使用 ImageNet 数据集训练也需要数小时或数天的时间，因此我们继续使用 Fashion-MNIST 数据集来实现 AlexNet 模型。

但由于 Fashion-MNIST 数据集中的图像（28$\times $28 ）远低于 I ma g e N e t 图像，为了有效使用 A l e x N e t 架构，我们把图像 res i ze 变换为 224$ \times$224。

模型训练

定义好模型以及变换数据集后，训练的代码和前面 LeNet 几乎一样，不过这里采用的是小学习率(0.01)和小batch_size（128）。

LeNet 模型训练的代码上次忘了放了，放到这篇文章附件里。

这次输入的图像增大很多，导致训练时间久了不少，我的拯救者风扇响个不停。第 10 轮训练后的相关结果为：

第10轮的训练损失为0.328
第10轮的训练精度为0.879
第10轮的测试集精度为0.885

可以看到精度已经很接近 90%，相比 LeNet 有一定提高，这得益于 Dropout、ReLU 的使用和预处理。

尽管 AlexNet 的代码仅比 LeNet 多几行，但这中间跨越的时间却有 20 来年。目前 AlexNet 已经被很多更有效的架构超越，但它是从浅层网络到深层网络的关键一步。

LeNet 与 AlexNet 模型训练的代码见附件：

【深度学习】深度卷积神经网络（AlexNet）

在 LeNet 提出后，卷积神经网络在计算机视觉和机器学习领域中很有名气，但并未起到主导作用。这是因为 LeNet 在更大、更真实的数据集上训练的性能和可行性还有待研究。事实上，在 20 世纪 90 年代到 2012 年之间的大部分时间里，…...

编程日记 2024/9/28 22:15:25

C语言扫盲

文章目录 C版本C语言特征GCCprintf数据类型函数指针内存管理void指针 Struct结构和Union结构typedef预处理器make工具cmake工具Projectintegral of sinc functionemulator embedded systeman event schedule 补充在线Linux终端安装Linux参考建议还是国外教材学习…人家的PPT比…...

编程日记 2024/9/28 22:14:24

视频融合共享平台LntonAIServer视频智能分析抖动检测算法和过亮过暗检测算法

LntonAIServer作为一款智能视频监控平台，集成了多种先进的视频质量诊断功能，其中包括抖动检测和过暗检测算法。这些算法对于提升视频监控系统的稳定性和图像质量具有重要意义。以下是对抖动检测算法和过暗检测算法的应用场景及优势的详细介绍。一、L…...

编程日记 2024/9/28 22:13:23

【笔记篇】Davinci Configurator OS模块（上）

目录 1 简介1.1 架构概览2 功能描述2.1 特性2.2 规范偏离2.2.1 API 函数的泛型偏离2.2.2 可信函数 API 偏离2.2.3 服务保护偏离2.2.4 代码保护2.2.5 SyncScheduleTable API 偏差2.2.6 CheckTask/ISRMemoryAccess API 偏差2.2.7 中断 API 偏差2.2.8 Cross Core Getter API2.2.9 …...

编程日记 2024/9/28 22:12:22

19.3 打镜像部署到k8s中，prometheus配置采集并在grafana看图

本节重点介绍 : 打镜像，导出镜像，传输到各个节点并导入运行该项目配置prometheus和grafana 打镜像本地build docker build -t ink8s-pod-metrics:v1 .build过程导出镜像 docker save ink8s-pod-metrics > ink8s-pod-metrics.tar 传输到各个node…...

编程日记 2024/9/28 22:10:19

如何让系统u盘重新可用

目录引言开始操作遇到的错误引言我们将 u 盘制作为系统 U 盘后，U 盘就没法在电脑中正常识别出了。当装完系统，不再需要 u 盘充当系统 U 盘想要正常使用该 U 盘，这时候就需要有些操作，让这个 U 盘正常化。上图就是充当系统盘的…...

编程日记 2024/9/28 22:09:17

14.安卓逆向-frida基础-编写hook脚本2

免责声明：内容仅供学习参考，请合法利用知识，禁止进行违法犯罪活动！ 内容参考于：图灵Python学院本人写的内容纯属胡编乱造，全都是合成造假，仅仅只是为了娱乐，请不要盲目相信。工…...

编程日记 2024/9/28 22:08:16

车辆零部件检测和分割数据集-车体数据集-yolo格式-yolov5-yolov10可用

这些标签是用于实例分割任务中的类别，通常在汽车图像识别或自动驾驶技术中使用。以下是这些类别： back_bumper - 后保险杠back_glass - 后挡风玻璃back_left_door - 后左车门back_left_light - 后左灯back_right_door - 后右车门back_right_light - 后右…...

编程日记 2024/9/28 22:07:15

甄选范文“论分布式存储系统架构设计”，软考高级论文，系统架构设计师论文

论文真题分布式存储系统（Distributed Storage System）通常将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式存储系统采用可扩展的…...

编程日记 2024/9/28 22:05:13

第十四章：html和css做一个心在跳动，为你而动的表白动画

💖 让心跳加速，传递爱意 💖 在这个特别的时刻，让爱在跳动中绽放！🌟 无论是初次相遇的心动，还是陪伴多年的默契，我们的心总在为彼此跳动。就像这颗炙热的爱心，随着每一次的跳动，传递着满满的温暖与期待。在这个浪漫的季节，让我们一同感受爱的律动！无论你是在…...

编程日记 2024/9/28 22:04:12

poetry安装

文章目录前言1. 为什么pip install poetry 会造成依赖冲突1.1 全局环境依赖混淆：1.2 工具和项目之间的冲突：1.3 缺乏依赖隔离：1.4 多出很多额外依赖： 2. 不推荐pipx安装3. poetry高级安装3.1 默认安装路径3.2自定义安装 4. 安装p…...

编程日记 2024/9/28 22:02:11

Proteus如何添加数码管

1、打开安装好的Proteus，点击上方菜单栏中的“库”，再选择“从库选取零件”，或者在左侧元件列表中单击鼠标右键，再点击右键菜单中的“从库中挑选”选项。 2、之后在元器件库中，点击类别中的“Optoelectronics”&#…...

编程日记 2024/9/28 22:00:08

5 apache poi实现excel的动态下拉框功能

excel下拉框 RequestMapping("xiala")public void xiala(HttpServletResponse response){String fileName "僵尸表";try{response.setContentType("application/vnd.openxmlformats-officedocument.spreadsheetml.sheet");response.setCharact…...

编程日记 2024/9/28 21:57:06

深度对比：etcd、Consul、Zookeeper 和 Nacos 作为注册中心和配置中心的优势与劣势

在现代分布式系统和微服务架构中，服务注册中心和配置中心是系统稳定运行的关键组成部分。服务注册中心负责服务的动态注册与发现，而配置中心用于集中管理配置，确保系统在变化的环境中保持一致性。本文将对比 etcd、Consul、Zookeeper 和 N…...

编程日记 2024/9/28 21:56:04

Android webview拦截H5的接口请求并返回处理好的数据

Android webview拦截H5的接口请求并返回处理好的数据 Android 可以通过 WebView 的 shouldInterceptRequest 方法拦截到 H5 中的网络请求。这是一个 WebViewClient 中的回调方法，允许开发者在 WebView 发起网络请求时对其进行处理和修改。具体使用方法如下&#…...

编程日记 2024/9/28 21:55:03

vue echarts tooltip使用动态模板

先上代码 tooltip: {// 这里是车辆iconshow: true,// trigger: "item",// backgroundColor: "transparent",appendToBody: true,textStyle: {color: "#ffffff" //设置文字颜色},formatter: (params) > {return formatHtml(params.data)},}, …...

编程日记 2024/9/28 21:53:00

網路本地連接沒有有效的IP配置：原因與解決方法

網路本地連接顯示“沒有有效的IP配置”。這通常意味著你的電腦無法從路由器或其他網路設備獲取有效的IP地址，從而導致無法上網。本文將從原因和解決方法兩個方面，詳細解析這個問題。一、問題的原因路由器或數據機問題： 路由器或數據機出…...

编程日记 2024/9/28 21:51:59

如何使用ssm实现基于web的学生就业管理系统的设计与实现+vue

TOC ssm726基于web的学生就业管理系统的设计与实现vue 第1章绪论 1.1 课题背景二十一世纪互联网的出现，改变了几千年以来人们的生活，不仅仅是生活物资的丰富，还有精神层次的丰富。在互联网诞生之前，地域位置往往是人们思想上…...

编程日记 2024/9/28 21:50:56

TCP三次握手四次挥手详解

TCP三次握手建立连接的过程： 一次握手：客户端发送带有 SYN（seqx）标志的数据包到服务端，然后客户端进入 SYN_SEND 状态，等待服务端的确认。二次握手：服务端收到 SYN 包后，发送带有 S…...

编程日记 2024/9/28 21:49:55

了解如何使用同快充充电器给不同设备快速充电

在这科技发展迅速的时代，快充技术已经走进了我们生活，不得不说有了快充技术的对比，传统的充电模式已经满足不了人们对充电速度的要求。就比如用华为输出100 W快充充电器为手机充电大概需要23分钟充满100%电量，而传统的充电器则需要…...

编程日记 2024/9/28 21:47:53

React第五十七节 Router中RouterProvider使用详解及注意事项

前言在 React Router v6.4 中，RouterProvider 是一个核心组件，用于提供基于数据路由（data routers）的新型路由方案。它替代了传统的 <BrowserRouter>，支持更强大的数据加载和操作功能（如 loader 和…...

编程新知 2026/1/21 9:06:43

线程与协程

1. 线程与协程 1.1. “函数调用级别”的切换、上下文切换 1. 函数调用级别的切换 “函数调用级别的切换”是指：像函数调用/返回一样轻量地完成任务切换。举例说明： 当你在程序中写一个函数调用： funcA() 然后 funcA 执行完后返回&…...

编程新知 2025/10/31 17:25:40

定时器任务——若依源码分析

分析util包下面的工具类schedule utils： ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类，封装了定时任务的创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz，先构建任务的 JobD…...

编程新知 2026/1/26 14:24:46

select、poll、epoll 与 Reactor 模式

在高并发网络编程领域，高效处理大量连接和 I/O 事件是系统性能的关键。select、poll、epoll 作为 I/O 多路复用技术的代表，以及基于它们实现的 Reactor 模式，为开发者提供了强大的工具。本文将深入探讨这些技术的底层原理、优缺点。一、I…...

编程新知 2026/2/8 6:37:36

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习）

Aspose.PDF 限制绕过方案：Java 字节码技术实战分享（仅供学习） 一、Aspose.PDF 简介二、说明（⚠️仅供学习与研究使用）三、技术流程总览四、准备工作1. 下载 Jar 包2. Maven 项目依赖配置五、字节码修改实现代码&#…...

编程新知 2026/2/6 22:13:44

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。它们中的大多数将生成纯 CSS 代码，而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库，可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画，可以包含在你的网页或应用项目中。 3.An…...

编程新知 2026/1/25 11:46:42

Mysql8 忘记密码重置，以及问题解决

1.使用免密登录找到配置MySQL文件，我的文件路径是/etc/mysql/my.cnf，有的人的是/etc/mysql/mysql.cnf 在里最后加入 skip-grant-tables重启MySQL服务 service mysql restartShutting down MySQL… SUCCESS! Starting MySQL… SUCCESS! 重启成功 2.登…...

编程新知 2026/1/9 8:59:09