当前位置：首页 > news >正文

DataProcess-VOC数据图像和标签一起进行Resize

news 2026/2/8 21:04:04

VOC数据图像和标签一起进行Resize

参加检测比赛的时候，很多时候工业原始数据尺度都比较大，如果对数据不提前进行处理，会导致数据在加载进内存时花费大量的时间，所以在执行训练程序之前需要将图像提前进行预处理。对于目标检测的数据，不只是将原始数据进行resize，边界框的坐标也要跟随一起进行resize。

如下，是今天测试需要用到的原始图像和他的标签。

2007_002266

<annotation><folder>VOC2012</folder><filename>2007_002266.jpg</filename><source><database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image></source><size><width>500</width><height>373</height><depth>3</depth></size><segmented>1</segmented><object><name>aeroplane</name><pose>Rear</pose><truncated>1</truncated><difficult>0</difficult><bndbox><xmin>231</xmin><ymin>251</ymin><xmax>458</xmax><ymax>346</ymax></bndbox></object><object><name>aeroplane</name><pose>Left</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>5</xmin><ymin>118</ymin><xmax>499</xmax><ymax>258</ymax></bndbox></object>
</annotation>

等比例缩放之后的结果如下。

result

单张图像resize

单张进行预处理的脚本如下。

# -*- coding: utf-8 -*-
# @File  : PreProcessing.py
# @Author: 肆十二
# @Date  : 2023/12/24
# @Desc  : 同步缩放图片（等比例缩放无失真）和xml文件标注的anchor size
import glob
import xml.dom.minidom
import cv2img = cv2.imread("./demo.jpg")
height, width = img.shape[:2]# 定义缩放信息 以等比例缩放到416为例
scale=416/height
height=416
width=int(width*scale)dom = xml.dom.minidom.parse("./demo.xml")
root = dom.documentElement# 读取标注目标框
objects = root.getElementsByTagName("bndbox")for object in objects:xmin=object.getElementsByTagName("xmin")xmin_data=int(float(xmin[0].firstChild.data))# xmin[0].firstChild.data =str(int(xmin1 * x))ymin =object.getElementsByTagName("ymin")ymin_data = int(float(ymin[0].firstChild.data))xmax=object.getElementsByTagName("xmax")xmax_data = int(float(xmax[0].firstChild.data))ymax=object.getElementsByTagName("ymax")ymax_data = int(float(ymax[0].firstChild.data))# 更新xmlwidth_xml=root.getElementsByTagName("width")width_xml[0].firstChild.data=widthheight_xml = root.getElementsByTagName("height")height_xml[0].firstChild.data = heightxmin[0].firstChild.data = int(xmin_data*scale)ymin[0].firstChild.data = int(ymin_data*scale)xmax[0].firstChild.data = int(xmax_data*scale)ymax[0].firstChild.data = int(ymax_data*scale)# 另存更新后的文件with open('demo2.xml', 'w') as f:dom.writexml(f, addindent='  ', encoding='utf-8')# 测试缩放效果img = cv2.resize(img, (width, height))# xmin, ymin, xmax, ymax分别为xml读取的坐标信息left_top = (int(xmin_data*scale), int(ymin_data*scale))right_down= (int(xmax_data*scale), int(ymax_data*scale))cv2.rectangle(img, left_top, right_down, (255, 0, 0), 1)cv2.imwrite("result.jpg",img)

批量resize

下面是批量对VOC格式数据集进行预处理的脚本，处理之后划分为37的比例就可以进行模型训练了。

import glob
import xml.dom.minidom
import cv2
from PIL import Image
import matplotlib.pyplot as plt
import os# 定义待批量裁剪图像的路径地址
IMAGE_INPUT_PATH = r'D:\code\data\JPEGImages'
XML_INPUT_PATH = r'D:\code\data\Annotations_new'
# 定义裁剪后的图像存放地址
IMAGE_OUTPUT_PATH = r'D:\code\data\JPEGImages_out'
XML_OUTPUT_PATH = r'D:\code\data\Annotations_out'
imglist = os.listdir(IMAGE_INPUT_PATH)
xmllist = os.listdir(XML_INPUT_PATH)for i in range(len(imglist)):# 每个图像全路径，这里有改进的空间image_input_fullname = IMAGE_INPUT_PATH + '/' + imglist[i]# xml_input_fullname = XML_INPUT_PATH + '/' + xmllist[i] xml_input_fullname = XML_INPUT_PATH + '/' + imglist[i].replace("jpg", "xml")image_output_fullname = IMAGE_OUTPUT_PATH + '/' + imglist[i]xml_output_fullname = XML_OUTPUT_PATH + '/' + xmllist[i]img = cv2.imread(image_input_fullname)height, width = img.shape[:2]# 定义缩放信息 以等比例缩放到416为例scale=400/heightheight=400width=int(width*scale)dom = xml.dom.minidom.parse(xml_input_fullname)root = dom.documentElement# 读取标注目标框objects = root.getElementsByTagName("bndbox")for object in objects:xmin=object.getElementsByTagName("xmin")xmin_data=int(float(xmin[0].firstChild.data))# xmin[0].firstChild.data =str(int(xmin1 * x))ymin =object.getElementsByTagName("ymin")ymin_data = int(float(ymin[0].firstChild.data))xmax=object.getElementsByTagName("xmax")xmax_data = int(float(xmax[0].firstChild.data))ymax=object.getElementsByTagName("ymax")ymax_data = int(float(ymax[0].firstChild.data))# 更新xmlwidth_xml=root.getElementsByTagName("width")width_xml[0].firstChild.data=widthheight_xml = root.getElementsByTagName("height")height_xml[0].firstChild.data = heightxmin[0].firstChild.data = int(xmin_data*scale)ymin[0].firstChild.data = int(ymin_data*scale)xmax[0].firstChild.data = int(xmax_data*scale)ymax[0].firstChild.data = int(ymax_data*scale)# 另存更新后的文件with open(xml_output_fullname, 'w') as f:dom.writexml(f, addindent='  ', encoding='utf-8')# 测试缩放效果img = cv2.resize(img, (width, height))'''# xmin, ymin, xmax, ymax分别为xml读取的坐标信息left_top = (int(xmin_data*scale), int(ymin_data*scale))right_down= (int(xmax_data*scale), int(ymax_data*scale))cv2.rectangle(img, left_top, right_down, (255, 0, 0), 1)'''cv2.imwrite(image_output_fullname,img)

总结

当前的目标检测框架中，模型方面基本都已经固定下来，YOLO或者RCNN，靠模型很难取得大规模的增点，所以这个时候从图像的角度进行入手显得非常重要，这里推荐大家使用一个专业的切图工具。

链接如下：GitHub - obss/sahi: Framework agnostic sliced/tiled inference + interactive ui + error analysis plots

碎碎念：数据预处理真的很关键啊，好的数据预处理真的可以节省大量的时间。

DataProcess-VOC数据图像和标签一起进行Resize

VOC数据图像和标签一起进行Resize 参加检测比赛的时候，很多时候工业原始数据尺度都比较大，如果对数据不提前进行处理，会导致数据在加载进内存时花费大量的时间，所以在执行训练程序之前需要将图像提前进行预处理。对于目标检测的数…...

编程日记 2023/12/25 17:09:40

MultiValueMap

MultiValueMap是Spring框架中提供的一个接口，它继承了Map接口，用于存储键值对，但与普通的Map不同的是，MultiValueMap中一个键可以对应多个值，因此它也可以被称为“多值Map”。 MultiValueMap的使用场景一般是在需要存…...

编程日记 2023/12/25 17:08:39

山西电力市场日前价格预测【2023-12-25】

日前价格预测预测说明： 如上图所示，预测明日（2023-12-25）山西电力市场全天平均日前电价为469.89元/MWh。其中，最高日前电价为1048.40元/MWh，预计出现在08:30。最低日前电价为252.77元/MWh，预计…...

编程日记 2023/12/25 17:07:38

【华为OD机试真题2023CD卷 JAVAJS】5G网络建设

华为OD2023（C&D卷）机试题库全覆盖，刷题指南点这里 5G网络建设时间限制：4s 空间限制：256MB 限定语言：不限题目描述：现需要在某城市进行5G网络建设，已经选取N个地点设置5G基站，编号固定为1到N，接下来需要各个基站之间使用光纤进行连接以确保基站能互联互通，不同…...

编程日记 2023/12/25 17:06:37

OSI 七层参考模型及TCP/IP 四层模型

OSI 七层参考模型七层模型，亦称 OSI （ Open System Interconnection ）参考模型，即开放式系统互联。参考模型是国际标准化组织（ISO ）制定的一个用于计算机或通信系统间互联的标准体系，一般称为…...

编程日记 2023/12/25 17:05:36

【面向对象】对比JavaScript、Go、Ada、Python、C++、Java、PHP的访问限制。

在不同编程语言中，控制成员（变量、方法、类等）可见性的机制不尽相同。以下是对比JavaScript、Go、Ada、Python、C、Java、PHP所使用的访问限制关键字和约定： 一、JavaScript ### JavaScript访问限制早期的JavaScript并没有类似…...

编程日记 2023/12/25 17:00:32

力扣（leetcode）第26题删除有序数组中的重复项（Python）

26.删除有序数组的重复项题目链接：26.删除有序数组的重复项给你一个非严格递增排列的数组 nums ，请你原地删除重复出现的元素，使每个元素只出现一次 ，返回删除后数组的新长度。元素的相对顺序应该保持一致。然后返回 …...

编程日记 2023/12/25 16:56:28

【内存泄漏】内存泄漏及常见的内存泄漏检测工具介绍

内存泄漏介绍什么是内存泄漏内存泄漏是指程序分配了一块内存（通常是动态分配的堆内存），但在不再需要这块内存的情况下未将其释放。内存泄漏会导致程序浪费系统内存资源，持续的内存泄漏还导致系统内存的逐渐耗尽，最…...

编程日记 2023/12/25 16:53:26

FPGA-ZYNQ-7000 SoC在嵌入式系统中的优势

FPGA-ZYNQ-7000 SoC在嵌入式系统中的优势本章节主要参考书籍《Xilinx Zynq-7000 嵌入式系统设计与实现基于ARM Cortex-A9双核处理器和Vivado的设计方法 (何宾，张艳辉编著）》本章节主要讲述FPGA-ZYNQ-7000 SoC在嵌入式系统中的优势，学习笔…...

编程日记 2023/12/25 16:52:25

如何在Vue3中实现无缝热重载：提升你的开发效率

Vue3中的热重载（Hot Module Replacement，简称HMR）是一种开发时的功能，它允许开发者在不刷新整个页面的情况下，实时替换、添加或删除模块。这意味着当你对Vue组件进行修改并保存时，这些更改会立即反映在浏览…...

编程日记 2023/12/25 16:50:24

盒子 Box

UVa1587 思路： 1.输入每个面的长宽并将每个面较长的一边放在前面 2.判断是否存在三对面分别相等 3.判断是否存在三组四棱相等 #include <stdio.h> #include <stdlib.h> #define maxn 100int cmp(const void* e1, const void* e2) {return (int)(*(d…...

编程日记 2023/12/25 16:49:22

// 预览附件perviewFile(file) {console.log(点击附件, file)var strfile.previewUrlvar filTypestr.split(.)console.log(filType,filType)uni.downloadFile({url: success: function(res) {console.log(打开文档成功, res);if (res.statusCode 200) {uni.saveFile({tempFile…...

编程日记 2023/12/25 16:48:22

卸载了Visual Studio后，在vscode中执行npm i或npm i --force时报错,该怎么解决？

卸载了Visual Studio后，在vscode中执行npm i或npm i --force时报错,该怎么解决？ 报错内容：原因解决办法报错内容： npm ERR! code 1 npm ERR! path E:\VScode\codeDate\yugan\node_modules\node-sass npm ERR! command failed np…...

编程日记 2023/12/25 16:46:20

渗透测试 | 信息收集常用方法合集

目录一、关于域名 1.子域名收集 a.搜索引擎查找 b.在线查询 c.工具 d.SSL/TLS证书查询 2.端口型站点收集 3.目录文件扫描 a.目录扫描工具 b.github搜索 c.google搜索 d.在线网站 e.文件接口工具 4.旁站和C段 a.旁站查询 b.C段查询 5.网站技术架构信息 a.基础…...

编程日记 2023/12/25 16:43:17

使用 ElementUI 组件构建无边框 Window 桌面应用（WinForm/WPF）

生活不可能像你想象得那么好，但也不会像你想象得那么糟。我觉得人的脆弱和坚强都超乎自己的想象。有时，我可能脆弱得一句话就泪流满面；有时，也发现自己咬着牙走了很长的路。 ——莫泊桑《一生》一、技术栈 Vite + Vue3 + TS + ElementUI(plus) + .NET Framework 4.7.2…...

编程日记 2023/12/25 16:42:16

JavaScript中数组的方法和函数作用域问题

1 -函数作用域问题-: 函数的外层作用域，在函数创建时就已确定，和函数的调用位置无关 var name 嘿嘿;// 函数的外层作用域，在函数创建时就已确定，和函数的调用位置无关// JS中的作用域被称为词法作用域function fn() {console.…...

编程日记 2023/12/25 16:38:13

nodejs设置x-xss-protection解决xss问题

在Node.js中设置X-XSS-Protection可以通过使用helmet库来完成。首先，确保已经安装了helmet库。如果没有安装，可以运行以下命令进行安装： npm install helmet --save 然后，在你的Node.js应用程序中引入并配置helmet库&#xff…...

编程日记 2023/12/25 16:35:11

C/C++不同整数类型的区别

在C/C中涉及的整数相关的类型大致有如下几种： char、unsigned charshort、unsigned shortint、unsigned intlong、unsigned longlong long、unsigned long longint8_t、uint8_tint32_t、uint32_tint64_t、uint64_tDWORDDWORD32、DWORD64size_t、ssize_tSIZE_T、SSI…...

编程日记 2023/12/25 16:34:10

如何理解JDK、JRE、JVM区别与联系

摘要：JDK是 Java 语言的软件开发工具包(SDK)。在JDK的安装目录下有一个jre目录，里面有两个文件夹bin和lib，在这里可以认为bin里的就是jvm，lib中则是jvm工作所需要的类库，而jvm和 lib合起来就称为jre。一、JDK JDK(Ja…...

编程日记 2023/12/25 16:33:09

用友GRP-U8 SmartUpload01 文件上传漏洞

漏洞描述用友GRP-U8行政事业内控管理软件是一款专门针对行政事业单位开发的内部控制管理系统，旨在提高内部控制的效率和准确性。该软件/u8qx/SmartUpload01.jsp接口存在文件上传漏洞，未经授权的攻击者可通过此漏洞上传恶意后门文件，从而获取…...

编程日记 2023/12/25 16:32:08

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造，完美适配AGV和无人叉车。同时，集成以太网与语音合成技术，为各类高级系统（如MES、调度系统、库位管理、立库等）提供高效便捷的语音交互体验。 L…...

编程新知 2026/2/8 4:23:14

FFmpeg 低延迟同屏方案

引言在实时互动需求激增的当下，无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作，还是游戏直播的画面实时传输，低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架，凭借其灵活的编解码、数据…...

编程新知 2025/11/4 6:26:59

Debian系统简介

目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍软件包管理工具dpkg dpkg核心指令详解安装软件包卸载软件包查询软件包状态验证软件包完整性手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核的 Linux 发行版&#xff…...

编程新知 2026/2/1 13:41:09

使用分级同态加密防御梯度泄漏

抽象联邦学习 （FL） 支持跨分布式客户端进行协作模型训练，而无需共享原始数据，这使其成为在互联和自动驾驶汽车 （CAV） 等领域保护隐私的机器学习的一种很有前途的方法。然而，最近的研究表明&…...

编程新知 2026/1/24 6:22:43

oracle与MySQL数据库之间数据同步的技术要点

Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异，它们的数据同步要求既要保持数据的准确性和一致性，又要处理好性能问题。以下是一些主要的技术要点： 数据结构差异数据类型差异&#xff…...

编程新知 2026/1/11 0:40:53

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

一、开发环境准备工具安装： 下载安装DevEco Studio 4.0（支持HarmonyOS 5）配置HarmonyOS SDK 5.0确保Node.js版本≥14 项目初始化： ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...

编程新知 2026/2/1 4:17:33

从零实现STL哈希容器：unordered_map/unordered_set封装详解

本篇文章是对C学习的STL哈希容器自主实现部分的学习分享希望也能为你带来些帮助~ 那咱们废话不多说，直接开始吧！ 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...

编程新知 2026/1/31 12:47:25

Unit 1 深度强化学习简介

Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库，例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体，比如 SnowballFight、Huggy the Do…...

编程新知 2026/2/8 12:54:53

Linux --进程控制

本文从以下五个方面来初步认识进程控制： 目录进程创建进程终止进程等待进程替换模拟实现一个微型shell 进程创建在Linux系统中我们可以在一个进程使用系统调用fork()来创建子进程，创建出来的进程就是子进程，原来的进程为父进程。…...

编程新知 2026/1/30 15:27:25

从 GreenPlum 到镜舟数据库：杭银消费金融湖仓一体转型实践

作者：吴岐诗，杭银消费金融大数据应用开发工程师本文整理自杭银消费金融大数据应用开发工程师在StarRocks Summit Asia 2024的分享引言：融合数据湖与数仓的创新之路在数字金融时代，数据已成为金融机构的核心竞争力。杭银消费金…...

编程新知 2026/1/31 12:30:32

DataProcess-VOC数据图像和标签一起进行Resize

VOC数据图像和标签一起进行Resize

单张图像resize

批量resize

总结

相关文章：

DataProcess-VOC数据图像和标签一起进行Resize

MultiValueMap

山西电力市场日前价格预测【2023-12-25】

【华为OD机试真题2023CD卷 JAVAJS】5G网络建设

OSI 七层参考模型及TCP/IP 四层模型

【面向对象】对比JavaScript、Go、Ada、Python、C++、Java、PHP的访问限制。

力扣（leetcode）第26题删除有序数组中的重复项（Python）

【内存泄漏】内存泄漏及常见的内存泄漏检测工具介绍

FPGA-ZYNQ-7000 SoC在嵌入式系统中的优势

如何在Vue3中实现无缝热重载：提升你的开发效率

盒子 Box

uni-app附件下载预览并解决打开附件时黑屏

卸载了Visual Studio后，在vscode中执行npm i或npm i --force时报错,该怎么解决？

渗透测试 | 信息收集常用方法合集

使用 ElementUI 组件构建无边框 Window 桌面应用（WinForm/WPF）

JavaScript中数组的方法和函数作用域问题

nodejs设置x-xss-protection解决xss问题

C/C++不同整数类型的区别

如何理解JDK、JRE、JVM区别与联系

用友GRP-U8 SmartUpload01 文件上传漏洞

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

FFmpeg 低延迟同屏方案

Debian系统简介

使用分级同态加密防御梯度泄漏

oracle与MySQL数据库之间数据同步的技术要点

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序

从零实现STL哈希容器：unordered_map/unordered_set封装详解

Unit 1 深度强化学习简介

Linux --进程控制

从 GreenPlum 到镜舟数据库：杭银消费金融湖仓一体转型实践