当前位置：首页 > news >正文

voc数据集格式与yolo数据集格式的区别及相互转化

news 2026/2/8 7:58:28

Pascal VOC数据集是目标检测领域最常用的标准数据集之一，几乎所有检测方向的论文都会给出其在VOC数据集上训练并评测的效果。VOC数据集包含的信息非常全，它不仅被拿来做目标检测，也可以拿来做分割等任务，因此除了目标检测所需的文件之外，还包含分割任务所需的文件，比如 SegmentationClass, SegmentationObject等

下面我们来认识一下Pascal voc数据集的文件目录结构，Pascal VOC数据主要有2007和2012两年的数据，其中2007有train,val,test,而2012只有train和val

#第一级
VOCdevkit
├── VOC2007
└── VOC2012
#第二级
VOCdevkit/VOC2007
├── Annotations
├── ImageSets
├── JPEGImages
├── SegmentationClass
└── SegmentationObject

VOCdevkit/VOC2012
├── Annotations
├── ImageSets
├── JPEGImages
├── SegmentationClass
└── SegmentationObject
#以VOC2007为例，第三级
## Annotations
VOCdevkit/VOC2007/Annotations/
├── 000001.xml
├── 000002.xml
├── 000003.xml
├── 000004.xml
├── 000005.xml
├── 000006.xml
├── 000007.xml
├── 000008.xml
├── 000009.xml
├── 000010.xml
...
## JPEGImages
VOCdevkit/VOC2007/JPEGImages/
├── 000001.jpg
├── 000002.jpg
├── 000003.jpg
├── 000004.jpg
├── 000005.jpg
├── 000006.jpg
├── 000007.jpg
├── 000008.jpg
├── 000009.jpg
├── 000010.jpg
├── 000011.jpg
├── 000012.jpg
├── 000013.jpg

##ImageSets
VOCdevkit/VOC2007/ImageSets/
├── Layout
├── Main
└── Segmentation

#ImageSets第四级
VOCdevkit/VOC2007/ImageSets/
├── Layout
│ ├── test.txt
│ ├── train.txt
│ ├── trainval.txt
│ └── val.txt
├── Main
│ ├── aeroplane_test.txt
│ ├── aeroplane_train.txt
│ ├── aeroplane_trainval.txt
│ ├── aeroplane_val.txt
│ ├── bicycle_test.txt
│ ├── bicycle_train.txt
│ ├── bicycle_trainval.txt
│ ├── bicycle_val.txt
│ ├── bird_test.txt
│ ├── bird_train.txt
│ ├── bird_trainval.txt
│ ├── bird_val.txt
│ ├── boat_test.txt
│ ├── boat_train.txt
│ ├── boat_trainval.txt
│ ├── boat_val.txt
│ ├── bottle_test.txt
│ ├── bottle_train.txt
│ ├── bottle_trainval.txt
│ ├── bottle_val.txt
│ ├── bus_test.txt
│ ├── bus_train.txt
│ ├── bus_trainval.txt
│ ├── bus_val.txt
│ ├── car_test.txt
│ ├── car_train.txt
│ ├── car_trainval.txt
│ ├── car_val.txt
│ ├── cat_test.txt
│ ├── cat_train.txt
│ ├── cat_trainval.txt
│ ├── cat_val.txt
│ ├── chair_test.txt
│ ├── chair_train.txt
│ ├── chair_trainval.txt
│ ├── chair_val.txt
│ ├── cow_test.txt
│ ├── cow_train.txt
│ ├── cow_trainval.txt
│ ├── cow_val.txt
│ ├── diningtable_test.txt
│ ├── diningtable_train.txt
│ ├── diningtable_trainval.tx
│ ├── diningtable_val.txt
│ ├── dog_test.txt
│ ├── dog_train.txt
│ ├── dog_trainval.txt
│ ├── dog_val.txt
│ ├── horse_test.txt
│ ├── horse_train.txt
│ ├── horse_trainval.txt
│ ├── horse_val.txt
│ ├── motorbike_test.txt
│ ├── motorbike_train.txt
│ ├── motorbike_trainval.txt
│ ├── motorbike_val.txt
│ ├── person_test.txt
│ ├── person_train.txt
│ ├── person_trainval.txt
│ ├── person_val.txt
│ ├── pottedplant_test.txt
│ ├── pottedplant_train.txt
│ ├── pottedplant_trainval.tx
│ ├── pottedplant_val.txt
│ ├── sheep_test.txt
│ ├── sheep_train.txt
│ ├── sheep_trainval.txt
│ ├── sheep_val.txt
│ ├── sofa_test.txt
│ ├── sofa_train.txt
│ ├── sofa_trainval.txt
│ ├── sofa_val.txt
│ ├── test.txt
│ ├── train_test.txt
│ ├── train_train.txt
│ ├── train_trainval.txt
│ ├── train.txt
│ ├── train_val.txt
│ ├── trainval.txt
│ ├── tvmonitor_test.txt
│ ├── tvmonitor_train.txt
│ ├── tvmonitor_trainval.txt
│ ├── tvmonitor_val.txt
│ └── val.txt
└── Segmentation
├── test.txt
├── train.txt
├── trainval.txt
└── val.txt

1.JPEGImages

这个文件夹中存放所有的图片，包括训练验证测试用到的所有图片。

2.ImageSets

这个文件夹中包含三个子文件夹，Layout、Main、Segmentation

Layout 文件夹中存放的是 train，valid，test 或者 train+valid 数据集的文件名
Segmentation文件夹中存放的是分割所用train，valid，test 或者 train+valid 数据集的文件名
Main 文件夹中存放的是各个类别所在图片的文件名，比如 cow_val，表示valid数据集中，包含有cow类别目标的图片名称。

3.Annotations

Annotation文件夹中存放着每张图片相关的标注信息，以xml格式的文件存储，标注文件中各个属性的含义，见下图。

红框区域内的内容是我们真正需要关注的，它包含。

filename：图片名称
size：图片宽高，
depth：表示图片通道数
object：表示目标，包含下面两部分内容。
- 首先是目标的类别 name 为dog。pose表示目标姿势为left，truncated 表示是否是一个被截断的目标，1表示是，0表示不是，在这个例子中，只露出狗头部分，所以 truncated 为1。difficult 为 0 表示此目标不是一个难以识别的目标。
- 然后是目标的 bbox 信息，可以看到，这里是以 [xmin,ymin,xmax,ymax] 格式进行标注的，分别表示dog目标的左上角和右下角坐标。xmin ,ymin ,xmax, ymax bbox的坐标格式是box的左上角和右下角的坐标，坐标的方式是在第四象限，且x越往右越大，y越往下越大。

一张图片中有多少需要识别的目标，其 xml 文件中就有多少个 object。上面的例子中有两个object，分别对应人和狗。

yolo数据集的格式通常为:

class_id x y w h

下图为一张图片按照yolo格式进行标注的txt标注文件

voc与yolo数据集格式比较如下:

理解了voc格式的数据集以及yolo格式的数据集，那么将两者相互转化就容易多了。下面为voc转yolo格式的案例模板代码:

import xml.etree.ElementTree as ET
import osvoc_folder = r"E:\Download_Datasets\detection_reflect_clothes\Annotations" #储存voc格式的xml标注文件的文件夹
yolo_folder = r"E:\Download_Datasets\yolo_detection_reflect_clothes\labels" #转换后的yolo格式标注文件的储存文件夹class_id = ["person",'other_clothes','hat','reflective_clothes'] #储存数据集中目标种类名称的列表，接下来的转换函数中会将该列表中种类名称对应的列表索引号作为写入yolo标注文件中该类目标的种类序号#voc标注的目标框坐标值转换到yolo标注的目标框坐标值的函数
#按照上图复现计算过程
def convert(size, box):dw = 1. / size[0]dh = 1. / size[1]x = (box[0] + box[1]) / 2.0y = (box[2] + box[3]) / 2.0w = box[1] - box[0]h = box[3] - box[2]x = x * dww = w * dwy = y * dhh = h * dhreturn (x, y, w, h)#对单个voc标注文件进行转换成其对应的yolo文件的函数
def convert_annotation(xml_file):file_name = xml_file.strip(".xml")  # 这一步将所有voc格式标注文件取出后缀名“.xml”，方便接下来作为yolo格式标注文件的名称in_file = open(os.path.join(voc_folder,xml_file)) #打开当前转换的voc标注文件out_file = open(os.path.join(yolo_folder,file_name + ".txt",),'w') #创建并打开要转换成的yolo格式标注文件tree = ET.parse(in_file)root = tree.getroot()size = root.find('size')w = int(size.find('width').text)h = int(size.find('height').text)for obj in root.iter('object'):cls = obj.find('name').textcls_id = class_id.index(cls)xmlbox = obj.find('bndbox')b = (float(xmlbox.find('xmin').text),float(xmlbox.find('xmax').text),float(xmlbox.find('ymin').text),float(xmlbox.find('ymax').text))bb = convert((w, h), b)out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')xml_fileList = os.listdir(voc_folder) #将所有voc格式的标注文件的名称取出存放到列表xml_fileList中
for xml_file in xml_fileList: #这里的for循环开始依次对所有voc格式标注文件生成其对应的yolo格式的标注文件convert_annotation(xml_file)

voc数据集格式与yolo数据集格式的区别及相互转化

Pascal VOC数据集是目标检测领域最常用的标准数据集之一，几乎所有检测方向的论文都会给出其在VOC数据集上训练并评测的效果。VOC数据集包含的信息非常全，它不仅被拿来做目标检测，也可以拿来做分割等任务，因此除了目标检测所需的文…...

编程日记 2023/10/9 15:31:15

超详细！Android Termux上如何安装MySQL，内网穿透实现公网远程访问

文章目录前言1.安装MariaDB2.安装cpolar内网穿透工具3. 创建安全隧道映射mysql4. 公网远程连接5. 固定远程连接地址前言 Android作为移动设备，尽管最初并非设计为服务器，但是随着技术的进步我们可以将Android配置为生产力工具，变成一个随身…...

编程日记 2023/10/9 15:29:13

TSNE降维学习

在学习使用Cora数据集时，输入的初始为[2708, 1433], 输入一共有2708个点，每个节点有1433个特征。测试集的大小为[1000, 1433]最后的输出为[1000, 7]，表示每个点的类别。我们要的就是查看这个[1000, 7]的预测结果。想要将他展示在一个平面上是…...

编程日记 2023/10/9 15:27:11

基于Python+Selenium的web自动化测试框架详解

简介随着Web应用程序的广泛应用和不断发展，Web自动化测试已经成为软件质量保证中的一个重要环节。而PythonSelenium作为一组强大的工具和框架，已经成为Web自动化测试领域中的热门技术之一。PythonSelenium可以帮助我们快速、准确地模拟用户行为和操作&…...

编程日记 2023/10/9 15:26:10

C (1094) : DS双向链表—前驱后继

Description 在双向链表中，A有一个指针指向了后继节点B，同时，B又有一个指向前驱节点A的指针。这样不仅能从链表头节点的位置遍历整个链表所有节点，也能从链表尾节点开始遍历所有节点。对于给定的一列数据，按照给定的…...

编程日记 2023/10/9 15:25:09

mp4视频太大怎么压缩变小？

mp4视频太大怎么压缩变小？确实，很多培训和教学都转向了线上模式，这使得我们需要下载或分享大量的在线教学视频。然而，由于MP4视频文件通常较大，可能会遇到无法打开或发送的问题。为了解决这个问题，我们可以…...

编程日记 2023/10/9 15:24:06

一.创建实体类 package com.siact.product.jwp.module.report.dto;import com.alibaba.excel.annotation.ExcelProperty; import com.alibaba.excel.annotation.write.style.ColumnWidth; import com.alibaba.excel.annotation.write.style.ContentRowHeight; import com.alib…...

编程日记 2023/10/9 15:22:04

LongLoRA：超长上下文，大语言模型高效微调方法

麻省理工学院和香港中文大学联合发布了LongLoRA，这是一种全新的微调方法，可以增强大语言模型的上下文能力，而无需消耗大量算力资源。通常，想增加大语言模型的上下文处理能力，需要更多的算力支持。例如，将…...

编程日记 2023/10/9 15:21:03

【漏洞复现】某 NVR 视频存储管理设备远程命令执行

漏洞描述 NUUO NVR是中国台湾NUUO公司旗下的一款网络视频记录器，该设备存在远程命令执行漏洞，攻击者可利用该漏洞执行任意命令，进而获取服务器的权限。免责声明技术文章仅供参考，任何个人和组织使用网络应当遵守宪法法律&am…...

编程日记 2023/10/9 15:20:02

若依前端-应用路径发布和使用

官网的路径：前端手册 | RuoYi 应用路径有些特殊情况需要部署到子路径下，例如：https://www.ruoyi.vip/admin，可以按照下面流程修改。 1、修改vue.config.js中的publicPath属性 publicPath: process.env.NODE_ENV "produ…...

编程日记 2023/10/9 15:19:01

Mojo 正式发布，Rust 能否与之匹敌？

9 月 7 日，Modular 公司宣布正式发布 Mojo：Mojo 现在已经开放本地下载——初步登陆 Linux 系统，并将很快提供 Mac 与 Windows 版本。据介绍，Mojo 最初的目标是比 Python 快 35000 倍，近日该团队表示，Mojo 将…...

编程日记 2023/10/9 15:17:59

opencv实现抠图，图像拼接，图像融合

在OpenCV中，你可以使用图像拼接、抠图和将图像的一部分放在另一张图片的指定位置。以下是示例代码，演示如何执行这些操作： 图像拼接要将两张图像拼接在一起，你可以使用 cv::hconcat（水平拼接）和 cv::vco…...

编程日记 2023/10/9 15:16:58

照片处理软件Lightroom Classic mac中文版功能介绍（Lrc2021）

Lightroom Classic 2022 mac是一款桌面编辑工具，lrc2021 mac包括提亮颜色、使灰暗的摄影更加生动、删除瑕疵、将弯曲的画面拉直等。您可以在电脑桌面上轻松整理所有照片。使用Lightroom Classic， 轻松整理编辑照片，为您的作品锦上添花。 Ligh…...

编程日记 2023/10/9 15:15:57

asp.net高校留学生信息管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net 高校留学生信息管理系统是一套完善的web设计管理系统，系统具有完整的源代码和数据库，系统主要采用B/S模式开发。开发环境为vs2010，数据库为sqlserver2008，使用c#语言开发 asp.net留学生信息管理系…...

编程日记 2023/10/9 15:14:56

C# - Opencv应用（1）之VS下环境配置详解

C# - Opencv应用（1） 之VS下环境配置详解有时候，单纯c#做前端时会联合C实现的dll来落地某些功能由于有时候会用C - Opencv实现算法后封装成dll，但是有时候会感觉麻烦，不如直接通过C#直接调用Opencv在此慢慢总结下C# -…...

编程日记 2023/10/9 15:13:55

rsync 远程同步实现快速、安全、高效的异地备份

目录 1 rsync 远程同步 1.1 rsync是什么？ 1.2 rsync同步方式 1.3 rsync的特性 1.4 rsync的应用场景 1.5 rsync与cp、scp对比 1.6 rsync同步源 2 配置rsync源服务器 2.1 建立/etc/rsyncd.conf 配置文件 3 发起端 4 发起端配置 rsyncinotify 4.1 修改rsync…...

编程日记 2023/10/9 15:12:54

医学访问学者面试技巧

医学访问学者面试是一个非常重要的环节，它决定了你是否能够获得这个宝贵的机会去国外的大学或研究机构学习和研究。在这篇文章中，知识人网小编将分享一些关于医学访问学者面试的技巧，帮助你在面试中表现出色。 1. 准备充分在参加医学访问学…...

编程日记 2023/10/9 15:10:51

【19】c++设计模式——＞桥接模式

桥接模式的定义 C的桥接模式（Bridge Pattern）是一种结构型设计模式，它将抽象部分与实现部分分离，使得它们可以独立地变化。桥接模式的核心思想是利用组合关系代替继承关系，将系统划分成多个独立的、功能不同的类层次结…...

编程日记 2023/10/9 15:09:50

网络安全：六种常见的网络攻击手段

1、什么是VPN服务？ 虚拟专用网络（或VPN）是您的设备与另一台计算机之间通过互联网的安全连接。VPN服务可用于在离开办公室时安全地访问工作计算机系统。但它们也常用于规避政府审查制度，或者在电影流媒体网站上阻止位置封锁&#…...

编程日记 2023/10/9 15:08:48

使用HbuilderX运行uniapp中小程序项目

下载HbuilderX，下载链接： HBuilderX-高效极客技巧导入相关项目。下载微信开发者工具。使用微信开发者工具打开：注意：如果是第一次使用，需要先配置小程序ide的相关路径，才能运行成功。如下图，需…...

编程日记 2023/10/9 15:07:47

【Linux】shell脚本忽略错误继续执行

在 shell 脚本中，可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行，可以在脚本开头添加 set e 命令来取消该设置。举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令，并忽略错误 rm somefile…...

编程新知 2025/9/11 15:27:32

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2026/1/26 19:25:32

数据库分批入库

今天在工作中，遇到一个问题，就是分批查询的时候，由于批次过大导致出现了一些问题，一下是问题描述和解决方案： 示例： // 假设已有数据列表 dataList 和 PreparedStatement pstmt int batchSize 1000; // …...

编程新知 2026/1/8 11:38:36

面向无人机海岸带生态系统监测的语义分割基准数据集

描述：海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而，目前该领域仍面临一个挑战，即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...

编程新知 2026/1/25 14:15:52

DAY 26 函数专题1

函数定义与参数知识点回顾：1. 函数的定义2. 变量作用域：局部变量和全局变量3. 函数的参数类型：位置参数、默认参数、不定参数4. 传递参数的手段：关键词参数5 题目1：计算圆的面积任务： 编写一…...

编程新知 2025/11/28 7:53:17

WebRTC调研

WebRTC是什么，为什么，如何使用 WebRTC有什么优势 WebRTC Architecture Amazon KVS WebRTC 其它厂商WebRTC 海康门禁WebRTC 海康门禁其他界面整理威视通WebRTC 局域网 Google浏览器 Microsoft Edge 公网 RTSP RTMP NVR ONVIF SIP SRT WebRTC协…...

编程新知 2026/2/7 1:08:45