当前位置：首页 > news >正文

（深度估计学习）Depth Anything V2 复现

news 文章来源：https://blog.csdn.net/Wu_JingYi0829/article/details/140262549 2025/4/30 11:01:31

Depth Anything V2 复现

一、配置环境
二、准备数据
- 1. 权重文件
- 2. 训练数据
三、Test
四、Train

代码：https://github.com/DepthAnything/Depth-Anything-V2

一、配置环境

在本机电脑win跑之后依旧爆显存，放到服务器跑：Ubuntu22.04，CUDA17

conda create -n DAv2 python=3.10
conda activate DAv2

conda下安装cuda。由于服务器上面我不能安装CUDA，只能在conda上安装cuda。我安装的cuda11.7。
跟着下面的教程做：

conda虚拟环境中安装cuda和cudnn，再也不用头疼版本号的问题了

wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/linux-64/cudatoolkit-11.7.1-h4bc3d14_13.conda
conda install --use-local cudatoolkit-11.7.1-h4bc3d14_13.conda
wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/linux-64/cudnn-8.9.7.29-hcdd5f01_2.conda
conda install --use-local cudnn-8.9.7.29-hcdd5f01_2.conda

安装其他依赖
记得在requirements.txt中增加tensorboard、h5py

pip install torch==2.0.1+cu117 torchvision==0.15.2+cu117 torchaudio==2.0.2 -f https://download.pytorch.org/whl/torch_stable.html
pip install -r requirements.txt

检查torch是否安装正确以及cuda版本

python
import torch
torch.cuda.is_available()
torch.version.cuda

二、准备数据

1. 权重文件

将pre-trained-models放在 DepthAnythingV2/checkpoints 文件夹

2. 训练数据

训练的时候需要，我这里之前就准备了vkitti。我先用vkitti数据跑一下试一下。

三、Test

Running script on images：

python run.py \--encoder <vits | vitb | vitl | vitg> \--img-path <path> --outdir <outdir> \[--input-size <size>] [--pred-only] [--grayscale]

Options:

–img-path: You can either 1) point it to an image directory storing all interested images, 2) point it to a single image, or 3)
point it a text file storing all image paths.
–input-size (optional): By default, we use input size 518 for model inference. You can increase the size for even more fine-grained
results.
–pred-only (optional): Only save the predicted depth map, without raw image.
–grayscale (optional): Save the grayscale depth map, without applying color palette.

For example:

python run.py --encoder vitl --img-path assets/examples --outdir depth_vis

Running script on videos

python run_video.py \--encoder <vits | vitb | vitl | vitg> \--video-path assets/examples_video --outdir video_depth_vis \[--input-size <size>] [--pred-only] [--grayscale]

Our larger model has better temporal consistency on videos.

四、Train

根据自己的数据修改DepthAnythingV2/metric_depth/dataset/splits和train.py中的路径数据

sh dist_train.sh

但我运行不了这个sh文件，所以我选择直接配置.vscode/launch.json。并且我将我的train代码改为了非分布式的。

{// 使用 IntelliSense 了解相关属性。 // 悬停以查看现有属性的描述。// 欲了解更多信息，请访问: https://go.microsoft.com/fwlink/?linkid=830387"version": "0.2.0","configurations": [{"name": "Python 调试程序: train.py","type": "debugpy","request": "launch","program": "${workspaceFolder}/metric_depth/train.py","console": "integratedTerminal","args": ["--epoch", "120","--encoder", "vitl","--bs", "2","--lr", "0.000005","--save-path", "./exp/vkitti","--dataset", "vkitti","--img-size", "518","--min-depth", "0.001","--max-depth", "20","--pretrained-from", "./checkpoints/depth_anything_v2_vitl.pth", ],"env": {"MASTER_ADDR": "localhost","MASTER_PORT": "20596"}},{"name":"Python 调试程序: run.py","type": "debugpy","request": "launch","program": "${workspaceFolder}/run.py","console": "integratedTerminal","args": ["--encoder", "vitl","--img-path", "assets/examples","--outdir", "output/depth_anything_v2_vitl_test","--checkpoints","checkpoints/depth_anything_v2_vitl_test.pth"],}]
}

（深度估计学习）Depth Anything V2 复现

Depth Anything V2 复现一、配置环境二、准备数据1. 权重文件2. 训练数据三、Test四、Train 代码：https://github.com/DepthAnything/Depth-Anything-V2 一、配置环境在本机电脑win跑之后依旧爆显存，放到服务器跑：Ubuntu22.04&#xff0c…...

编程日记 2024/7/13 3:13:59

C语言——printf、scanf、其他输入输出函数

printf函数 1.printf 函数的一般格式： printf 函数的一般格式为printf(格式控制,输出表列) 例如: printf("%d,%c\n",i,c); (1)“格式控制" 是用双撇号括起来的一个字符串，称“转换控制字符串”，简称“格式字符串”。它包括…...

编程日记 2024/7/13 3:12:58

adb 常用的命令总结

1、adb logcat 抓取日志 adb logcat > d:\log.txt Ctrlc 结束日志抓取 adb logcat -c > d:\log.txt 清空旧日志发生Native Crash 时，抓取错误报告 adb logcat -b crash 抓取筛选后的日志： adb logcat -s AndroidRuntime > d:\log…...

编程日记 2024/7/13 3:10:56

Java发展过程中，JVM的演进

1. 初期的JVM（Java 1.0 到 Java 1.1） Java 1.0 于1996年发布，最初的JVM设计主要是为了跨平台兼容性和基本的垃圾回收功能。早期的JVM以解释执行字节码为主，性能相对较低。 2. 引入即时编译（JIT）&#xff…...

编程日记 2024/7/13 3:09:55

笔记：在Entity Framework Core中如何处理多线程操作DbContext

一、目的： 在使用Entity Framework Core (EF Core) 进行多线程操作时，需要特别注意，因为DbContext类并不是线程安全的。这意味着，你不能从多个线程同时使用同一个DbContext实例进行操作。尝试这样做可能会导致数据损坏、异常或不可…...

编程日记 2024/7/13 3:06:52

RabbitMQ 高级功能

RabbitMQ 是一个广泛使用的开源消息代理，它支持多种消息传递协议，可以在分布式系统中用于可靠的消息传递。除了基本的消息队列功能外，RabbitMQ 还提供了一些高级功能，增强了其在高可用性、扩展性和灵活性方面的能力。以下是一些主…...

编程日记 2024/7/13 3:04:50

软件架构之开发管理

软件架构之开发管理第 13 章：开发管理13.1 项目的范围、时间与成本13.1.1 项目范围管理13.1.2 项目成本管理13.1.3 项目时间管理 13.2 配置管理与文档管理13.2.1 软件配置管理的概念13.2.2 软件配置管理的解决方案13.2.3 软件文档管理 13.3 软件需求管理13.3.1 需求…...

编程日记 2024/7/13 3:01:47

【Linux 基础】df -h 的输出信息解读

df -h 的输出信息 xxx:~$ df -h Filesystem Size Used Avail Use% Mounted on udev 16G 0 16G 0% /dev tmpfs 3.2G 792K 3.2G 1% /run /dev/sda1 32G 1.7G 30G 6% / tmpfs 16G 0 16G 0% /dev/shm tmp…...

编程日记 2024/7/13 2:59:45

南航秋招指南，线上测评和线下考试

南航秋招简介南航作为国内一流的航空公司，对人才的需求量非常旺盛，每年也有很多专业对口的工作提供给应届毕业生，对于应届毕业生而言，一定要抓住任何一个应聘机会，并且在规定的范围内进行简历的提交，以便…...

编程日记 2024/7/13 2:54:40

% 定义主应力值 sigma1 100; % MPa sigma2 50; % MPa sigma3 -33; % MPa sigma_m1(sigma1 sigma3)/2; sigma_m2(sigma1 sigma2)/2; sigma_m3(sigma2 sigma3)/2; % 计算半径 r1 (sigma1 - sigma3) / 2; r2 (sigma1 - sigma2) / 2; r3 (sigma2 - sigma3…...

编程日记 2024/7/13 2:53:40

PyTorch 1-深度学习

深度学习-PyTorch 一: Pytorch1> pytorch简介2> PyTorch 特点&优势3> pytorch简史4> pytorch 库5> PyTorch执行流程6> PyTorch 层次结构二: PyTorch常用的高级API和函数1> 自动求导（Autograd）2> 模型容器（Module）3> 优化器（Optimizer）4&g…...

编程日记 2024/7/13 2:52:36

Hi3861鸿蒙开发环境搭建

1.1 安装配置Visual Studio Code 打开Download Visual Studio Code - Mac, Linux, Windows选择下载安装Windows系统的Visual Studio Code。下载后进行安装。Visual Studio Code安装完成后，通过内置的插件市场搜索并安装开发所需的插件如图所示： 1.2 安…...

编程日记 2024/7/13 2:51:35

解决RedisTemplate配置JSON序列化后@Cacheable序列化仍然是JDK序列化的问题

问题现象在参考网上的Redis集成后，配置了RedisTemplate的序列化，配置成功后Cacheable注解的缓存仍然是jdk的序列化，配置无效。参考配置的类似代码： Bean("redisTemplate") public RedisTemplate<Object, Objec…...

编程日记 2024/7/13 2:50:34

人脸检测+调整分辨率+调整帧率

初始检测：只在视频的前几秒内进行一次人脸检测，以确定主持人的大致位置。计算裁剪框：基于检测到的主持人位置，计算一个以主持人面部为中心的固定裁剪框。视频裁剪：使用计算出的裁剪框对整个视频进行裁剪，将…...

编程日记 2024/7/13 2:46:30

C++相关概念和易错语法（19）（继承规则、继承下的构造和析构、函数隐藏）

1.继承规则继承的本质是复用，是结构上的继承而不是内容上的继承，近似于在子类中声明了父类的成员变量。 （1）写法：class student : public person 派生类（子类），继承方式&…...

编程日记 2024/7/13 2:44:27

使用GPT-4和ChatGPT构建应用项目

文章目录项目1：构建新闻稿生成器项目2：YouTube视频摘要项目3：打造《塞尔达传说：旷野之息》专家项目4：语音控制项目1：构建新闻稿生成器 GPT-4和ChatGPT等LLM专用于生成文本。我们可以使用GPT-4和ChatGPT在各种场景中生成文本，举例如下。电子邮件合同或正式文档创意写作…...

编程日记 2024/7/13 2:43:25

mobx学习笔记

mobx介绍 mobx是一个功能强大，上手容易的状态管理工具。MobX背后的哲学很简单:任何源自应用状态的东西都应该自动地获得。利用getter和setter来收集组件的数据依赖关系，从而在数据发生变化的时候精确知道哪些组件需要重绘。 mobx和redux的区别 mobx更…...

编程日记 2024/7/13 2:39:21

深入理解 Cowboy WebSocket：使用 Erlang/OTP 构建高效的即时通讯(IM)应用

深入理解 Cowboy WebSocket：使用 Erlang/OTP 构建高效的即时通讯(IM)应用引言实时通信技术在现代 Web 应用中扮演着核心角色，而 WebSocket 作为其中的关键技术，已成为即时通讯(IM)系统不可或缺的一部分。Cowboy，这个基于 Erla…...

编程日记 2024/7/13 2:31:14

算法的几种常见形式

算法（Algorithm） 算法（Algorithm）是指解决问题或完成任务的一系列明确的步骤或规则。在计算机科学中，算法是程序的核心部分，它定义了如何执行特定的任务或解决特定的问题。算法可以用多种方式来表示和实现…...

编程日记 2024/7/13 2:29:13

SpringBoot新手快速入门系列教程二：MySql5.7.44的免安装版本下载和配置，以及简单的Mysql生存指令指南。

我的教程都是亲自测试可行才发布的，如果有任何问题欢迎留言或者来群里我每天都会解答。我们要如何选择MySql 目前主流的Mysql有5.0、8.0、9.0 主要区别 MySQL 5.0 发布年份：2005年特性： 基础事务支持存储过程、触发器、视图基础存储引擎…...

编程日记 2024/7/13 2:28:12

Elasticsearch 更新指定字段

Elasticsearch 更新指定字段准备条件查询数据更新指定字段更新子级字段准备条件以下查询操作都基于索引crm_clue来操作，索引已经建过了，本文主要讲Elasticsearch更新指定字段语句，下面开始写更新语句执行更新啦！ 查询数据查…...

编程日记 2024/7/13 2:27:11

Koa.js、Egg.js与Express.js：探析三大Node.js框架的异同

在Node.js的世界里，选择合适的框架对于构建高效、可维护的后端服务至关重要。Express.js、Koa.js 和 Egg.js 是三个备受欢迎的框架，它们各有特色，适用于不同的开发场景。本文旨在深入探讨这三个框架的区别，并通过代码示例帮助开发…...

编程日记 2024/7/13 2:25:09

【MYSQL】如何解决 bin log 与 redo log 的一致性问题

该问题问的其实就是redo log 的两阶段提交为什么说redo log 具有崩溃恢复的能力 MySQL Server 层拥有的 bin log 只能用于归档，不足以实现崩溃恢复（crash-safe），需要借助 InnoDB 引擎的 redo log 才能拥有崩溃恢复的能力。所谓崩…...

编程日记 2024/7/13 2:21:05

翻译语音识别在线的软件，分享4款实用的软件！

在全球化日益加速的今天，语言沟通已成为人们生活中不可或缺的一部分。无论是商务洽谈、学术交流还是日常交流，翻译语音识别技术都扮演着举足轻重的角色。今天，我们就来揭秘一下，那些能让你在语言沟通中如虎添翼的翻译语音识别软件…...

编程日记 2024/7/13 2:20:04

Qt 的Q_PROPERTY关键字

Qt 的Q_PROPERTY关键字 1. Q_PROPERTY 的由来2. 实现原理3. Q_PROPERTY 的特点4. Q_PROPERTY 的属性5. 应用说明示例代码示例代码连接信号和槽的多种方式处理信号和槽的注意事项 QT的元对象系统1. 元对象系统的由来2. 实现原理3. 元对象系统的特点4. 元对象系统的属性5. 应用说…...

编程日记 2024/7/13 2:18:03

github 下载提速的几种方法

1. 代理下载（无需注册） //toolwa.com/github/ //d.serctl.com/2. 转入 Gitee 加速将项目镜像到 Gitee 中下载加速 3. 使用 Watt Toolkit 加速 Watt Toolkit //steampp.net/选择合适的版本下载选择 github，一键加速 4.CDN 加速 (修改…...

编程日记 2024/7/13 2:17:02

【Oracle】实验三 Oracle数据库的创建和管理

【实验目的】掌握Oracle数据库的创建方法使用DBCA创建数据库在数据库中装入SCOTT用户及其表【实验内容】使用DBCA创建数据库，名为MYDB，找到其初始化文件(文本型和服务器型文件都要找到)，查看各类默认位置并记录下来(包括物理文件所在目…...

编程日记 2024/7/13 2:16:01

Linux rpm和ssh损坏修复

背景介绍我遇到的问题可能和你的不一样。但是如果遇到错误一样也可以按此方案尝试修复。我是想在Linux上安装Oracle，因为必须在离线环境下安装。就在网上搜一篇文章linux离线安装oracle，然后安装教程走，进行到安装oracle依赖包的时候执行了…...

编程日记 2024/7/13 2:13:59

仕考网：公务员考试面试时间一般多长?

公务员考试主要分为笔试与面试两个阶段，其中面试是笔试通过的下一关，面试的具体安排通常由相关考试机构或招录单位负责发布并通知考生。公务员面试的持续时间一般在30分钟至1小时之间，具体时长可能因地区和招录单位的不同而有所变化。常见的…...

编程日记 2024/7/13 2:12:58

C语言作业5（学生管理系统C语言）

成学生管理系统 1> 使用菜单完成 2> 有学生的信息录入功能：输入学生个数，并将学生的姓名、分数录入 3> 查看学生信息：输出所有学生姓名以及对应的分数 4> 求出学习最好的学生信息：求最大值 5> 按姓名将所有学…...

编程日记 2024/7/13 2:11:57

（深度估计学习）Depth Anything V2 复现

Depth Anything V2 复现

一、配置环境

二、准备数据

1. 权重文件

2. 训练数据

三、Test

四、Train

相关文章：

（深度估计学习）Depth Anything V2 复现

C语言——printf、scanf、其他输入输出函数

adb 常用的命令总结

Java发展过程中，JVM的演进

笔记：在Entity Framework Core中如何处理多线程操作DbContext

RabbitMQ 高级功能

软件架构之开发管理

【Linux 基础】df -h 的输出信息解读

南航秋招指南，线上测评和线下考试

用MATLAB绘制三向应力圆

PyTorch 1-深度学习

Hi3861鸿蒙开发环境搭建

解决RedisTemplate配置JSON序列化后@Cacheable序列化仍然是JDK序列化的问题

人脸检测+调整分辨率+调整帧率

C++相关概念和易错语法（19）（继承规则、继承下的构造和析构、函数隐藏）

使用GPT-4和ChatGPT构建应用项目

mobx学习笔记

深入理解 Cowboy WebSocket：使用 Erlang/OTP 构建高效的即时通讯(IM)应用

算法的几种常见形式

SpringBoot新手快速入门系列教程二：MySql5.7.44的免安装版本下载和配置，以及简单的Mysql生存指令指南。

Elasticsearch 更新指定字段

Koa.js、Egg.js与Express.js：探析三大Node.js框架的异同

【MYSQL】如何解决 bin log 与 redo log 的一致性问题

翻译语音识别在线的软件，分享4款实用的软件！

Qt 的Q_PROPERTY关键字

github 下载提速的几种方法

【Oracle】实验三 Oracle数据库的创建和管理

Linux rpm和ssh损坏修复

仕考网：公务员考试面试时间一般多长?

C语言作业5（学生管理系统C语言）