当前位置：首页 > news >正文

DeepLabV3+：对预测处理的详解

news 文章来源：https://blog.csdn.net/m0_62919535/article/details/129064800 2025/4/20 5:41:44

相信大家对于这一部分才是最感兴趣的，能够实实在在的看到效果。这里我们就只需要两个.py文件（deeplab.py、predict_img.py）。

创建DeeplabV3类

deeplab.py的作用是为了创建一个DeeplabV3类，提供一个检测图片的方法，而predict_img.py则是为了单独检测图片的效果。

在这里我需要一个defaults字典用来包含我在这个类要使用的变量，而需要把数据类型转换成字典数据再做存储，这时候就需要用到类的内置属性__dict__。

这里简单说一下字典defaults的key和value。

1、model_path=model_date/deeplab_mobilenetv2.pth

此文件是基于VOC拓展数据集训练的权重，放心使用，附上下载地址的权值文件。

2、num_classes=2

对于需要区分的类数+1，比如我这里是识别裂缝，所以我的num_classes为1+1，再比如经典的猫狗分类问题，那么它们的num_classes为2+1＝3。

3、backbone=mobilenet

这里是使用的主干网络，有mobilenet和xception可供选择。

4、input_shape=[512,512]

输入图片的大小

5、downsample_factor=16

下采样的倍数，可选的有8和16，但8训练要求更大的内存，这里要与训练时相同。

6、mix_type=0

0代表原图与生成的图进行混合；1代表仅保留生成的图；2代表扣去背景，仅保留原图中的目标。

7、cude=False

有cuda就是Ture，没有就用cpu。

在这里，请看detect_image函数里面，首先要用cvtColor函数对图片进行一个转化，因为RGB图像才有权重。

在对图像的大小修改时，需要增添一个灰度框，想想这样的请况，如果图像比输入大小小就会使图像被强行放大，可能会伸长也可能会扩展。那么为了避免这种请况，所以要添加这个灰度边界，后期因为要与原图大小匹配，会将这部分去掉。

然后，对图像的每个像素点进行分类。

# deeplab.pyimport colorsys
import copyimport cv2
import numpy as np
import torch
import torch.nn.functional as F
from PIL import Image
from torch import nnfrom Deeplabv3_plus.deeplabv3plus import DeepLab
from utily.utils import cvtColor, preprocess_input, resize_image, show_configclass DeeplabV3(object):defaults = {"model_path": 'model_data/deeplab_mobilenetv2.pth',"num_classes": 2,"backbone": "mobilenet","input_shape": [512, 512],  "downsample_factor": 16,  "mix_type": 0,"cuda": False}def __init__(self, **kwargs):self.__dict__.update(self.defaults)for name, value in kwargs.items():setattr(self, name, value)if self.num_classes <= 21:self.colors = [ (0, 0, 0), (128, 0, 0), (0, 128, 0), (128, 128, 0), (0, 0, 128), (128, 0, 128), (0, 128, 128), (128, 128, 128), (64, 0, 0), (192, 0, 0), (64, 128, 0), (192, 128, 0), (64, 0, 128), (192, 0, 128), (64, 128, 128), (192, 128, 128), (0, 64, 0), (128, 64, 0), (0, 192, 0), (128, 192, 0), (0, 64, 128), (128, 64, 12)]# 画框设置不同的颜色else:hsv_tuples = [(x / self.num_classes, 1., 1.) for x in range(self.num_classes)]self.colors = list(map(lambda x: colorsys.hsv_to_rgb(*x), hsv_tuples))self.colors = list(map(lambda x: (int(x[0] * 255), int(x[1] * 255), int(x[2] * 255)), self.colors))# 获得模型self.generate()show_config(**self.defaults)# 获得所有的分类def generate(self, onnx=False):# 载入模型与权值self.net = DeepLab(num_classes=self.num_classes, backbone=self.backbone, downsample_factor=self.downsample_factor, pretrained=False)device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')self.net.load_state_dict(torch.load(self.model_path, map_location=device))self.net = self.net.eval()print('{} model, and classes loaded.'.format(self.model_path))if not onnx:if self.cuda:self.net = nn.DataParallel(self.net)self.net = self.net.cuda()def detect_image(self, image, count=False, name_classes=None):"""* 在这里将图像转换成RGB图像，防止灰度图在预测时报错。* 代码仅仅支持RGB图像的预测，所以其它类型的图像都会转化成RGB:param image: 图片:param count: 计数:param name_classes::return:"""image = cvtColor(image)# 对输入图像进行一个备份，后面用于绘图old_img = copy.deepcopy(image)orininal_h = np.array(image).shape[0]orininal_w = np.array(image).shape[1]# 给图像增加灰条，实现不失真的resize# 也可以直接resize进行识别image_data, nw, nh  = resize_image(image, (self.input_shape[1],self.input_shape[0]))# 添加上batch_size维度image_data  = np.expand_dims(np.transpose(preprocess_input(np.array(image_data, np.float32)), (2, 0, 1)), 0)with torch.no_grad():images = torch.from_numpy(image_data)if self.cuda:images = images.cuda()# 图片传入网络进行预测pr = self.net(images)[0]# 取出每一个像素点的种类pr = F.softmax(pr.permute(1,2,0),dim = -1).cpu().numpy()# 将灰条部分截取掉pr = pr[int((self.input_shape[0] - nh) // 2) : int((self.input_shape[0] - nh) // 2 + nh), \int((self.input_shape[1] - nw) // 2) : int((self.input_shape[1] - nw) // 2 + nw)]# 进行图片的resizepr = cv2.resize(pr, (orininal_w, orininal_h), interpolation = cv2.INTER_LINEAR)# 取出每一个像素点的种类pr = pr.argmax(axis=-1)if count:classes_nums        = np.zeros([self.num_classes])total_points_num    = orininal_h * orininal_wprint('-' * 63)print("|%25s | %15s | %15s|"%("Key", "Value", "Ratio"))print('-' * 63)for i in range(self.num_classes):num     = np.sum(pr == i)ratio   = num / total_points_num * 100if num > 0:print("|%25s | %15s | %14.2f%%|"%(str(name_classes[i]), str(num), ratio))print('-' * 63)classes_nums[i] = numprint("classes_nums:", classes_nums)if self.mix_type == 0:# seg_img = np.zeros((np.shape(pr)[0], np.shape(pr)[1], 3))# for c in range(self.num_classes):#     seg_img[:, :, 0] += ((pr[:, :] == c ) * self.colors[c][0]).astype('uint8')#     seg_img[:, :, 1] += ((pr[:, :] == c ) * self.colors[c][1]).astype('uint8')#     seg_img[:, :, 2] += ((pr[:, :] == c ) * self.colors[c][2]).astype('uint8')seg_img = np.reshape(np.array(self.colors, np.uint8)[np.reshape(pr, [-1])], [orininal_h, orininal_w, -1])# 将新图片转换成Image的形式image   = Image.fromarray(np.uint8(seg_img))# 将新图与原图及进行混合image   = Image.blend(old_img, image, 0.7)elif self.mix_type == 1:# seg_img = np.zeros((np.shape(pr)[0], np.shape(pr)[1], 3))# for c in range(self.num_classes):#     seg_img[:, :, 0] += ((pr[:, :] == c ) * self.colors[c][0]).astype('uint8')#     seg_img[:, :, 1] += ((pr[:, :] == c ) * self.colors[c][1]).astype('uint8')#     seg_img[:, :, 2] += ((pr[:, :] == c ) * self.colors[c][2]).astype('uint8')seg_img = np.reshape(np.array(self.colors, np.uint8)[np.reshape(pr, [-1])], [orininal_h, orininal_w, -1])# 将新图片转换成Image的形式image   = Image.fromarray(np.uint8(seg_img))elif self.mix_type == 2:seg_img = (np.expand_dims(pr != 0, -1) * np.array(old_img, np.float32)).astype('uint8')# 将新图片转换成Image的形式image = Image.fromarray(np.uint8(seg_img))return image

单张图片的预测

由于我想要将图片放在PyQt5设计的ui中，所以要单张单张的显示。

from PIL import Image
from deeplab import DeeplabV3if __name__ == "__main__":deeplab = DeeplabV3()mode = "predict" count = False    #指定了是否进行目标的像素点计数（即面积）与比例计算# name_classes    = ["background","aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow", "diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]name_classes = ["background","crack"]if mode == "predict":while True:img = input('Input image filename:')try:image = Image.open(img)except:print('Open Error! Try again!')continueelse:r_image = deeplab.detect_image(image, count=count, name_classes=name_classes)r_image.show()

我们来看看效果：

原图

效果图

DeepLabV3+：对预测处理的详解

相信大家对于这一部分才是最感兴趣的，能够实实在在的看到效果。这里我们就只需要两个.py文件（deeplab.py、predict_img.py）。创建DeeplabV3类 deeplab.py的作用是为了创建一个DeeplabV3类，提供一个检测图片的方法，而…...

编程日记 2023/2/24 13:43:18

【Git】与“三年经验”就差个分支操作的距离

前言 Java之父于胜军说过，曾经一位“三年开发经验”的程序员粉丝朋友，刚入职因为不会解决分支问题而被开除，这是不是在警示我们什么呢？ 针对一些Git的不常用操作，我们通过例子来演示一遍 1.版本回退 1.1已提交但未p…...

编程日记 2023/2/24 13:42:09

【经验】win10设置自启动

方法一：自启动文件夹按下winr快捷键，弹出运行窗口，输入：shell:startup，弹出自启动文件夹窗口，将要开机自启的程序或快捷方式复制到此窗口中即可。自启动文件夹路径：C:\Users\【用户名】\Ap…...

编程日记 2023/2/24 13:41:02

文章目录Linux SPI-NAND 驱动开发指南1 概述1.1 编写目的1.2 适用范围1.3 相关人员3 流程设计3.1 体系结构3.2 源码结构3.3 关键数据定义3.3.1 flash 设备信息数据结构3.3.2 flash chip 数据结构3.3.3 aw_spinand_chip_request3.3.4 ubi_ec_hdr3.3.5 ubi_vid_hdr3.4 关键接口说…...

编程日记 2023/2/24 13:39:53

【THREE.JS学习（3）】使用THREEJS加载GeoJSON地图数据

本文接着系列文章（2）进行介绍，以VUE2为开发框架，该文涉及代码存放在HelloWorld.vue中。相较于上一篇文章对div命名class等，该文简洁许多。<template> <div></div> </template>接着引入核心库i…...

编程日记 2023/2/24 13:38:48

在windows搭建Redis集群并整合入Springboot项目

搭建集群配置规划Redis集群编写bat来启动每个redis服务安装Ruby安装Redis的Ruby驱动出现错误镜像过期SSL证书过期安装集群脚本redis-trib启动每个节点并执行集群构建脚本测试搭建是否成功配置springboot项目中配置规划Redis集群我们搭建三个节点的集群，每个节点有…...

编程日记 2023/2/24 13:37:38

C++【内存管理】

文章目录C内存管理一、C/C内存分布1.1.C/C内存区域划分图解：1.2.根据代码进行内存区域分析二、C内存管理方式2.1.new/delete操作内置类型2.2.new和delete操作自定义类型三、operator new与operator delete函数四、new和delete的实现原理4.1.内置类型4.2.自定义类型4…...

编程日记 2023/2/24 13:36:31

Spring Cloud Nacos源码讲解（六）- Nacos客户端服务发现

Nacos客户端服务发现源码分析总体流程首先我们先通过一个图来直观的看一下，Nacos客户端的服务发现，其实就是封装参数、调用服务接口、获得返回实例列表。但是如果我们要是细化这个流程，会发现不仅包括了通过NamingService获取服务列表…...

编程日记 2023/2/24 13:35:25

华为OD机试题，用 Java 解【计算最大乘积】问题

最近更新的博客华为OD机试 - 猴子爬山 | 机试题算法思路【2023】华为OD机试 - 分糖果（Java） | 机试题算法思路【2023】华为OD机试 - 非严格递增连续数字序列 | 机试题算法思路【2023】华为OD机试 - 消消乐游戏（Java） | 机试题算法思路【2023】华为OD机试 - 组成最大数…...

编程日记 2023/2/24 13:33:15

蓝牙运动耳机哪个好，比较好的运动蓝牙耳机

很多想选择蓝牙运动耳机的朋友都不知道应该如何选择，运动首先需要注意的就是耳机的防水能力以及耳机佩戴舒适度，在运动当中会排出大量的汗水，耳机防水等级做到越高，可以更好地保护耳机不受汗水浸湿，下面就分享五款适合…...

编程日记 2023/2/24 13:32:09

苹果设计可变色Apple Watch表带，智能穿戴玩法多

苹果最新技术专利显示，苹果正在为 Apple Watch 设计一款可变色的表带，可以根据佩戴者所穿着的服装、所在的环境等自动改变颜色。据介绍，这款表带里的灯丝具有电致变色功能，可以通过施加不同的电压，来实现显示多种颜色或…...

编程日记 2023/2/24 13:31:02

Elasticsearch集群Yellow亚健康状态修复

Elasticsearch集群Yellow亚健康状态修复问题背景排查流程解决办法问题背景 Elasticsearch集群健康状态为Yellow，涉及到多个索引。排查流程在浏览器打开Kibana Console进行问题排查，console地址为： http://{Kibana_IP}:5601/app/dev_too…...

编程日记 2023/2/24 13:29:57

第52讲：SQL优化之UPDATE更新操作的优化

文章目录 1.UPDATE更新语句的优化2.UPDATE更新语句优化案例1.UPDATE更新语句的优化我们在使用UPDATE更新语句更改表中数据时，可能会导致表中产生行级锁或者是表级锁。 UPDATE语句的优化就是为了避免表中出现表级锁，从而影响并发的性能。当UPDATE语句更新表数据时，WHERE…...

编程日记 2023/2/24 13:28:51

logback 自定义日志输出到数据库

项目日志格式 Spring Boot 的默认日志输出类似于以下示例： 2021-12-14 22:40:14.159 INFO 20132 --- [ main] com.kuangstudy.SpringbootApplication : Started SpringbootApplication in 2.466 seconds (JVM running for 3.617)输出以下项目&…...

编程日记 2023/2/24 13:27:45

＜ elementUi 组件插件： el-table表格拖拽修改列宽及行高及使用注意事项＞

elementUi 组件插件： el-table拖拽修改列宽及行高及使用注意事项👉 资源Js包下载及说明👉 使用教程> 实现原理> 局部引入> 全局引入 （在main.js中）👉 注意事项往期内容 💨&#x1f4…...

编程日记 2023/2/24 13:26:37

微信小程序的分享朋友圈

分享朋友圈官方API：分享到朋友圈 1、分享到朋友圈接口设置事项： 2、onShareTimeline()注意事项： 3、分享朋友圈后，测试发现，没有数据请求。用户在朋友圈打开分享的小程序页面，并不会真正打开小程序&…...

编程日记 2023/2/24 13:25:28

华为OD机试真题Python实现【寻找路径】真题+解题思路+代码（20222023）

寻找路径题目二叉树也可以用数组来存储，给定一个数组，树的根节点的值储存在下标 1，对于储存在下标 n 的节点，他的左子节点和右子节点分别储存在下标 2*n 和 2*n+1，并且我们用 -1 代表一个节点为空。给定一个数组存储的二叉树，试求从根节点到最小的叶子节点的路径，…...

编程日记 2023/2/24 13:24:20

九头蛇hydra爆破http示例

使用hydra执行http表单暴力破解通过浏览器自带分析得知：提交地址：http://10.0.0.115/student_attendance/ajax.php?action=login 提交方式：POST 提交数据：username=a&password=a 服务响应：3 根据以上收集的信息就可以使用hydra进行密码爆破 hydra 10.0.0.115 http…...

编程日记 2023/2/24 13:23:11

jQuery基本使用

获取和设置元素内容学习目标能够知道获取和设置元素内容的操作1. html方法的使用jquery中的html方法可以获取和设置标签的html内容示例代码:<script>$(function(){var $div $("#div1");// 获取标签的html内容var result $div.html();alert(result);// 设置…...

编程日记 2023/2/24 13:22:03

互联网企业如何进行数字化转型？业务需求迭代频繁的应对之策！

互联网行业作为我国数字经济发展“四化”框架中生产力主要组成部分，是国家数字化转型的主要推动者之一。为此，相对于其他传统行业来说，互联网行业企业数字化转型的紧迫程度更高，如果不数字化转型或者转型不成功，会有更…...

编程日记 2023/2/24 13:20:56

前端学习日记——Vue之Vuex初识（一）

前言学习前端一段时间了，因为一直是做Python开发，所以凭借着语言的通性学习Javascript、Vue轻快很多，但一些碎片化的知识及插件的使用方法还是需要记录一下，时而复习，形成系统化的知识体系（PS：…...

编程日记 2023/2/24 13:19:47

【C++】Windows动态库【.DLL文件】制作方法总结

如题，我们本篇介绍如何制作DLL，将代码类中的方法以接口的形式暴露出来给exe程序使用。会涉及类厂创建方法实例、声明DLL接口、.def文件的使用等。目录一、DLL介绍二、C制作DLL文件 2.1 DLL端 2.2 调用端三、DLL导出类方法四、COM技术制作DLL…...

编程日记 2023/2/24 13:18:39

C 语言编程 — HelloWorld

目录文章目录目录安装 Linux GCC 编译器YUM 安装发行版本编译安装指定版本HelloWorld基本语法编码运行安装 Linux GCC 编译器 YUM 安装发行版本 $ yum install gcc vim -y$ gcc --version gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-39) Copyright © 2015 Free Software…...

编程日记 2023/2/24 13:17:27

蓝桥杯入门即劝退（二十一）三数之和（梦破碎的地方）

欢迎关注点赞评论，共同学习，共同进步！------持续更新蓝桥杯入门系列算法实例--------如果你也喜欢Java和算法，欢迎订阅专栏共同学习交流！你的点赞、关注、评论、是我创作的动力！-------希望我的文章对你有所…...

编程日记 2023/2/24 13:16:18

element 下拉框支持搜索并输入

前言下拉框对于开发来说再常见不过了，也是界面设计中的常用组件，在部分使用场景下，我们需要做到下拉框可以选择的同时，支持搜素和输入，以 element 的下拉框组件为例，当我们同时设置属性让其支持搜素和输入…...

编程日记 2023/2/24 13:15:10

JVM详解——垃圾回收

如果有兴趣了解更多相关内容的话，可以看看我的个人网站：耶瞳空间 GC：垃圾收集(Gabage Collection)，内存处理是编程人员容易出现问题的地方，忘记或者错误的内存。不当的回收可能会导致程序或系统的不稳定甚至崩溃&…...

编程日记 2023/2/24 13:14:03

spring之集成Mybatis

文章目录一、实现步骤1、准备数据库表2、在IDEA中创建一个模块，并引入依赖3、基于三层架构实现4、编写pojo5、编写mapper接口6、编写mapper配置文件7、编写service接口和service接口的实现类8、编写jdbc.properties配置文件9、编写mybatis-config.xml配置文件10、编…...

编程日记 2023/2/24 13:12:54

【面试宝典】准备面试了～集合

1、ArrayList和linkedList的区别它们都是继承自 Collection。 ArrayList 是基于数组的，在使用查询的时候效率比较高，但删除效率却非常低，因为它需要重新排数组中的所有数据。 LinkList底层是一个双链表，在添加和删除元素时更好…...

编程日记 2023/2/24 13:11:43

华为OD机试真题Python实现【GPU 调度】真题+解题思路+代码（20222023）

GPU 调度题目为了充分发挥 GPU 算力，需要尽可能多的将任务交给 GPU 执行，现在有一个任务数组，数组元素表示在这1s内新增的任务个数，且每秒都有新增任务，假设 GPU 最多一次执行n个任务，一次执行耗时1s，在保证 GPU 不空闲的情况下，最少需要多长时间执行完成。…...

编程日记 2023/2/24 13:10:35

gcc编译C源程序

一、安装在Linux下，一般使用gcc或arm-linux-gcc交叉编译器来编译程序。在Ubuntu环境下，我们可以使用以下apt-get命令来安装这些编译程序。 apt-get install gcc apt-get install gcc-arm-linux-gnueabi 安装完毕后，使用以下命令查看编译器…...

编程日记 2023/2/24 13:09:27

创建DeeplabV3类

单张图片的预测

相关文章：