当前位置：首页 > news >正文

计算机视觉入门 6）数据集增强（Data Augmentation）

news 2026/2/8 20:36:33

系列文章目录

计算机视觉入门 1）卷积分类器
计算机视觉入门 2）卷积和ReLU
计算机视觉入门 3）最大池化
计算机视觉入门 4）滑动窗口
计算机视觉入门 5）自定义卷积网络
计算机视觉入门 6）数据集增强（Data Augmentation）

提示：仅为个人学习笔记分享，若有错漏请各位老师同学指出，Thanks♪(･ω･)ﾉ

一、数据集增强（Data Augmentation）

伪造数据

提高机器学习模型性能的最佳方法是在更多数据上进行训练。模型有更多的示例可供学习，它将能够更好地识别图像中的哪些差异是重要的，哪些是不重要的。更多的数据有助于模型更好地泛化。

但是在实践中，我们拥有的数据量是有限的。

获取更多数据的一种简单方法是（使用已经拥有的数据）创建假数据。如果我们能够以保持类别不变的方式转换数据集中的图像，我们可以教会分类器忽略这些类型的变换。例如，照片中的汽车是面向左还是面向右，并不会改变它是汽车而不是卡车的事实。因此，如果我们使用翻转图像来增强我们的训练数据，我们的分类器将学会忽略“左或右”是它应该忽略的差异。

这就是数据增强背后的整个思想：添加一些看起来合理像真实数据的额外伪造数据，从而提高分类器的性能。

使用数据增强

通常，在增强数据集时会使用许多种类型的转换。这些可能包括旋转图像、调整颜色或对比度、扭曲图像或许多其他事情，通常以组合方式应用。以下是一张图像可能经过的不同转换的示例。

单张汽车图像的十六种变换。

数据增强通常是在线进行的，意味着在图像被馈送到网络进行训练时进行。回想一下，训练通常是在小批量数据上进行的。当使用数据增强时，以下是批量包含16个图像的示例。
A batch of 16 images with various random transformations applied.

每次在训练期间使用图像时，都会应用一种新的随机变换。这样，模型始终会看到与以前略有不同的内容。训练数据中的这种额外变化有助于模型适应新数据。

然而，需要记住，使用的任何变换都不应该混淆类别。例如，旋转图像会混淆 ‘9’ 和 ‘6’；‘b’和‘d’ 也并不适合水平翻转。不是每种变换都对特定问题有用。

二、【代码实现】

Keras 预处理层类型

Keras提供了两种方式对数据进行增强。

第一种方法是在数据流水线中使用类似于ImageDataGenerator的函数包含增强功能。
第二种方法是通过使用Keras的预处理层将其包含在模型定义中。这就是我们将采取的方法。对我们来说，主要优点是图像变换将在GPU上计算，而不是在CPU上计算，这可能加快训练过程。

# 所有的 "factor" 参数表示百分比变化
augment = keras.Sequential([# preprocessing.RandomContrast(factor=0.5),preprocessing.RandomFlip(mode='horizontal'), # 水平翻转# preprocessing.RandomFlip(mode='vertical'), # 垂直翻转# preprocessing.RandomWidth(factor=0.15), # 水平拉伸# preprocessing.RandomRotation(factor=0.20), # 随机旋转# preprocessing.RandomTranslation(height_factor=0.1, width_factor=0.1), # 随机平移
])

将预处理层添加到模型中

这里我们跳过步骤1：导入数据，直接在定义模型中添加一些简单的变换，展示如何使用数据集增强这个工具。

from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.layers.experimental import preprocessing# 导入预训练模型
pretrained_base = tf.keras.models.load_model('../input/cv-course-models/cv-course-models/vgg16-pretrained-base',
)
pretrained_base.trainable = Falsemodel = keras.Sequential([# 预处理preprocessing.RandomFlip('horizontal'), # 左右翻转preprocessing.RandomContrast(0.5), # 对比度最多变化50%# 基础pretrained_base,# 头部layers.Flatten(),layers.Dense(6, activation='relu'),layers.Dense(1, activation='sigmoid'),
])

计算机视觉入门 6）数据集增强（Data Augmentation）

系列文章目录

目录

一、数据集增强（Data Augmentation）

伪造数据

使用数据增强

二、【代码实现】

Keras 预处理层类型

将预处理层添加到模型中

相关文章：

计算机视觉入门 6）数据集增强（Data Augmentation）

Python分享之redis(2)

springboot aop方式实现敏感数据自动加解密

RabbitMQ---work消息模型

GitRedisNginx合集

系统架构设计师之缓存技术：Redis与Memcache能力比较

02.sqlite3学习——嵌入式数据库的基本要求和SQLite3的安装

AIGC ChatGPT 按年份进行动态选择的动态图表

分布式—雪花算法生成ID

Python语言实现React框架

Netty入门学习和技术实践

MySQL详细安装与配置

裸露土堆识别算法

说说你对Redux的理解？其工作原理？

《基于 Vue 组件库的 Webpack5 配置》7.路径别名 resolve.alias 和性能 performance

基于PaddleOCR2.7.0发布WebRest服务测试案例

Solidity 合约安全，常见漏洞（下篇）

nodejs根据pdf模板填入中文数据并生成新的pdf文件

UE4与pycharm联合仿真的调试问题及一些仿真经验

【数据分析】波士顿矩阵

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

Java 8 Stream API 入门到实践详解

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

Neo4j 集群管理：原理、技术与最佳实践深度解析

拉力测试cuda pytorch 把 4070显卡拉满

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的？

R语言速释制剂QBD解决方案之三

【JVM】Java虚拟机（二）——垃圾回收

计算机基础知识解析：从应用到架构的全面拆解

逻辑回归暴力训练预测金融欺诈