GS-SLAM论文阅读--RGBDS-SLAM
前言
最近GS-SLAM领域的工作层出不穷,有很多不错的工作出现。接下来慢慢写一下相关博客。
文章目录
- 前言
- 1.背景介绍
- 2.关键内容
- 2.1 3D多层次金字塔高斯喷溅
- 2.2 紧密耦合多特征重构优化
- 2.3总体流程
- 3.文章贡献
- 4.个人思考
1.背景介绍
- 高保真重建是密集SLAM的关键。最近流行的方法利用3D高斯溅射(3D GS)技术进行场景的RGB、深度和语义重建。然而,这些方法忽略了场景不同部分的细节和一致性问题。
- 3D GS技术以其高效的优化框架和实时渲染能力,弥补了NeRF的不足。因此,出现了许多基于3D gis的SLAM解决方案。然而,这些方法通常只使用原始图像特征进行训练,这些特征不足以完全捕获某些场景部分的细粒度细节,导致重建一致性差。而且,这些方法在进行多特征重构时,没有通过合理的约束进行有效的特征融合和优化,无法相互增强。
- 大部分的相机跟踪模块都依赖于图像损失的梯度优化,因此系统的实时性相对较差PhotoSLAM引入ORB-SLAM3作为基本框架来改善这个问题。
2.关键内容
2.1 3D多层次金字塔高斯喷溅
与标准的三维高斯溅射过程不同,我们参考[26]-[30]中提出的渐进式训练过程,并引入三维多层次金字塔高斯溅射。在这个过程中,各种特征图像(RGB、深度、语义图像)的分辨率在训练过程中逐渐提高。这不仅减少了训练时间和难度,而且可以在不同分辨率下逐步重建不同特征的多尺度信息。
因此,我们为RGB、深度和语义图像构建了一个n层图像金字塔。
RGB金字塔图像的第i层可以表示为:
深度金字塔图像的第i层可以表示为:
语义金字塔图像的第i层可以表示为:
在训练过程中,为了保证对图像金字塔的每个视点和每一层进行全面的训练,在每次迭代中,我们随机选取一组多特征图像{ I r g t ( I ) I^{gt}_r (I) Irgt(I), I d g t ( I ) I^{gt}_d(I) Idgt(I), I s g t ( I ) I^{gt}_s (I) Isgt(I)}。我们提取该视点的所有相关信息(如姿态、图像大小等),并基于这些信息,参照渲染公式,对RGB、深度和语义图像执行渲染操作。通过我们提出的MLP-GS渐进式训练过程,我们可以最大程度地逐步还原场景细节。
2.2 紧密耦合多特征重构优化
在上一节中,我们对地图中的3D高斯基元执行MLP-GS操作,得到一组渲染图像{ I r r d ( I ) I^{rd}_r (I) Irrd(I), I d r d ( I ) I^{rd}_d(I) Idrd(I), I s r d ( I ) I^{rd}_s (I) Isrd(I)}。这是高斯喷溅的前向渲染过程。我们现在需要计算渲染图像和真实地面图像之间的损失,并执行反向传播来优化地图中的3D高斯原语。
参考上文中渲染图像和groundtruth图像的L1损耗和SSIM损耗的计算,我们对上一节获得的第I个金字塔视角的渲染图像{ I r g t ( I ) I^{gt}_r (I) Irgt(I), I d g t ( I ) I^{gt}_d(I) Idgt(I), I s g t ( I ) I^{gt}_s (I) Isgt(I)}进行类似的损耗计算:
对于RGB图像,我们考虑L1和SSIM损失:
对于深度图像,我们只考虑L1损耗:
对于语义图像,我们同样考虑L1和SSIM损失:
最后,我们将多个特征紧密耦合到一个重构优化框架中进行联合优化:
2.3总体流程
3.文章贡献
- 本文介绍了一种三维多层次金字塔高斯喷溅(MLP-GS)方法,该方法提取多层次图像金字塔进行高斯喷溅训练,恢复场景细节,并保证重建过程中的一致性。
- 设计了一种紧密耦合多特征重构优化(TCMF-RO)机制,在优化绘制过程中促进RGB、深度和语义图重构精度的相互提高。
4.个人思考
本文应该是在Photo-SLAM的基础上添加了语义信息。至于多层金字塔,我记得原始的Photo-SLAM代码应该也有,只不过本文金字塔层数更多。我个人的观点,觉得本文的创新点不是那么强,但是能实现语义的添加,也是很不错的工作。但是他的实验结果非常的好,在Replica代码上可以达到38.85。然后我看了实验相关部分,从下面的消融实验可以看出,其中提升最大的应该是加上深度损失后。
相关文章:
GS-SLAM论文阅读--RGBDS-SLAM
前言 最近GS-SLAM领域的工作层出不穷,有很多不错的工作出现。接下来慢慢写一下相关博客。 文章目录 前言1.背景介绍2.关键内容2.1 3D多层次金字塔高斯喷溅2.2 紧密耦合多特征重构优化2.3总体流程 3.文章贡献4.个人思考 1.背景介绍 高保真重建是密集SLAM的关键。最…...
条件编译->enable_if和 if constexpr使用区别
enable_if 和 if constexpr 是 C 中用于控制编译或运行时条件的重要工具,它们各有不同的用途和使用场景。以下是它们的主要区别: 1. enable_if std::enable_if 是一个类型特征,用于在编译时根据条件选择类型。常用于模板元编程,…...
介绍一下CSS中伪类和伪元素的概念
一、伪类(Pseudo - Classes) 1. 定义 伪类是添加到选择器的关键字,用于定义元素的特殊状态。这些状态不是由文档树中的结构或属性来表示,而是基于用户行为(如鼠标悬停)、元素状态(如被选中&am…...
【橘子ES】熔断器Circuit breaker
一、相关概念 我们在日常的开发中,关于服务之间的熔断操作似乎很常见,当请求超过了我们服务所认为可以承受的一个上限阈值的时候,我们为了保护服务不会被进一步的高负载压崩溃,我们有时候会选择熔断请求,此时服务不再…...
6.4 CPU性能分析--Intel处理器跟踪技术
Intel处理器跟踪PT技术是记录程序执行过程的技术,它把记录信息编码报文存到高压缩率的二进制文件中。该二进制文件结合每条指令的时间戳重建执行流。PT技术覆盖度大,开销小,有关开销的信息详见,主要用于性能问题的事后分析和根因定…...
期权懂|如何用第三方平台开通期权?
期权小懂每日分享期权知识,帮助期权新手及时有效地掌握即市趋势与新资讯! 如何用第三方平台开通期权? 如果不能满足常规的期权开户条件,可以考虑以下几种方法来尝试开户: 一、选择第三方平台: 通过网络搜…...
JS中const有没有变量提升
在JavaScript中,const 关键字用于声明一个只读的常量,其值在初始化后不能被重新赋值。关于变量提升(Hoisting),它是JavaScript中一个重要的概念,指的是无论变量或函数声明在何处,它们都会被“提…...
Axure RP全面介绍:功能、应用与中文替代方案
Axure RP是一款功能强大的原型设计工具,它被广泛应用于网页和移动应用的设计领域。Axure RP集成了设计、原型制作和文档管理,为产品管理人员、设计师和开发人员提供了一个综合的平台。让我们一步步了解Axure的基本功能、使用技巧以及中文支持平台——“在…...
WordPress用户首次登录强制修改密码
有些企业网站要求很高,比如用户首次登录强制要求修改密码,这里提供一段代码,用于实现强制修改密码供参考。 通过代码可以实现,用户正常注册或者管理员在后台添加用户时,会添加首次登录标记,用户首次登录后会…...
AI开源南京分享会回顾录
AI 开源南京分享会,已于2024年11月30日下午在国浩律师(南京)事务所5楼会议厅成功举办。此次活动由 KCC南京、PowerData、RISC-Verse 联合主办,国浩律师(南京)事务所协办。 活动以“开源视角的 AI 对话”为主…...
基于事件驱动的websocket简单实现
websocket的实现 什么是websocket? WebSocket 是一种网络通信协议,旨在为客户端和服务器之间提供全双工、实时的通信通道。它是在 HTML5 规范中引入的,可以让浏览器与服务器进行持久化连接,以便实现低延迟的数据交换。 WebSock…...
【leetcode100】反转链表
1、题目描述 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1] 2、初始思路 2.1 思路 # Definition for singly-linked list. # class ListNode: # …...
禅道Bug的一次迁移
一、场景 平时工作记录在公司禅道上的问题想备份一份到本地,但是又没有公司禅道的数据库信息,有时候出测试报告想批量调整数据方便截图很困难,同时也为了学习禅道数据流转过程,所以有了把缺陷保存到本地一份的想法。 实际上禅道支…...
c段和旁站讲解(附查询网址)
1. C段(C类子网段) C段就是一个IP地址的小范围。比如,假设你有一个家庭Wi-Fi网络,Wi-Fi会分配给你一组IP地址(每个设备一个IP地址)。如果你的网络分配的是类似 192.168.1.0 这样的IP地址,那么这…...
Linux编译Kernel时的文件zImage、文件dtb(dtbs)、核心模块分别是什么东西?
zImage文件的介绍 在编译Linux内核时,zImage 是一种内核映像文件,它是内核的压缩版本,通常用于引导嵌入式设备或其他资源有限的环境。 zImage 的具体含义 zImage 是 “Compressed Kernel Image” 的缩写。它是通过压缩原始的内核映像&…...
【深度学习】深刻理解“变形金刚”——Transformer
Transformer 是一种用于处理序列数据的深度学习模型架构,最初由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,成为许多高级任务(如机器翻译、文本生成、问答…...
75_pandas.DataFrame 中查看和复制
75_pandas.DataFrame 中查看和复制 与pandas的DataFrame与NumPy数组ndarray类似,也有视图(view)和拷贝(copy)。 当使用loc[]或iloc[]等选择DataFrame的一部分以生成新的DataFrame时,与原对象共享内存的对…...
打电话玩手机识别-支持YOLO,COCO,VOC格式的标记,超高识别率可检测到手持打电话, 非接触式打电话,玩手机自拍等
打电话玩手机识别-支持YOLO,COCO,VOC格式的标记,超高识别率可检测到手持打电话, 非接触式打电话,玩手机自拍等1275个图片。 手持打电话: 非接触打电话 玩手机 数据集下载 yolov11:https://download.csdn…...
生产慎用之调试日志对空间矢量数据批量插入的性能影响-以MybatisPlus为例
目录 前言 一、一些缘由 1、性能分析 二、插入方式调整 1、批量插入的实现 2、MP的批量插入实现 3、日志的配置 三、默认处理方式 1、基础程序代码 2、执行情况 四、提升调试日志等级 1、在logback中进行设置 2、提升后的效果 五、总结 前言 在现代软件开发中,性能优…...
单片机:实现倒计时(附带源码)
使用单片机实现倒计时功能是一个常见的嵌入式应用,它能帮助你更好地理解如何进行时间控制和如何通过定时器实现精确的倒计时。通过该项目,你将学习如何使用单片机的定时器来进行时间计算,并通过LED或LCD显示倒计时的结果。 1. 项目概述 倒计…...
什么是多线程中的上下文切换
什么是多线程中的上下文切换 回答 上下文切换是指CPU从一个线程转到另一个线程时,需要保存当前线程的上下文状态,恢复另一个线程的上下文状态,以便于下一次恢复执行该线程时能够正确地运行。 在多线程编程中,上下文切换是一种常…...
如何在windwos批量拉取go mod
golang go-zero微服务开发,分的rpc项目太多了,变更了公共包,需要手动去拉取,直接一键拉取就好了,创建一个windwos脚本文件 文件名 tidy_all_go_mod.ps1 代码 # 辅助工具拉取go mod tidy # 根目录v99main执行 ./tidy_all_go_mod.ps1 # 定义项目的根目录 $RootDir Get-Locat…...
【Three.js基础学习】29.Hologram Shader
前言 three.js 通过着色器如何实现全息影像,以及一些动态的效果。 一些难点的思维,代码目录 下面图是摄像机视角观看影响上的时候,如何实现光影的渐变,透视以及叠加等。 一、代码 1.index.html <!DOCTYPE html> <html …...
文件包含进阶玩法以及绕过姿态
前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理文件包含漏洞的进阶玩法与绕过姿态 不涉及基础原理了 特殊玩法汇总 本地包含 文件包含上传文件 原理: php的文件包含有着把其他文件类型当做php代码执行的功效,文件上传一般会限制后缀&am…...
Markdown编辑器工具--Typora
下载链接...
PyTorch 的 torch.unbind 函数详解与进阶应用:中英双语
中文版 PyTorch 的 torch.unbind 函数详解与进阶应用 在深度学习中,张量的维度操作是基础又重要的内容。PyTorch 提供了许多方便的工具来完成这些操作,其中之一便是 torch.unbind。与常见的堆叠函数(如 torch.stack)相辅相成&am…...
四十六:如何使用Wireshark解密TLS/SSL报文?
TLS/SSL是保护网络通信的重要协议,其加密机制可以有效地防止敏感信息被窃取。然而,在调试网络应用或分析安全问题时,解密TLS/SSL流量是不可避免的需求。本文将介绍如何使用Wireshark解密TLS/SSL报文。 前提条件 在解密TLS/SSL报文之前&…...
【人工智能】OpenAI O1模型:超越GPT-4的长上下文RAG性能详解与优化指南
在人工智能(AI)领域,长上下文生成与检索(RAG) 已成为提升自然语言处理(NLP)模型性能的关键技术之一。随着数据规模与应用场景的不断扩展,如何高效地处理海量上下文信息,成…...
Ubuntu22.04搭建FTP服务器保姆级教程
在网络环境中,文件传输是一项至关重要的任务。FTP(文件传输协议)是一种基于客户端/服务器模式的协议,广泛用于在互联网上传输文件。Ubuntu作为一款流行的Linux发行版,因其稳定性和易用性而广受开发者和系统管理员的喜爱…...
操作系统(4)操作系统的结构
一、无序结构(整体结构或模块组合结构) 1.特点: 以大型表格和队列为中心,操作系统的各部分程序围绕着这些表格进行。操作系统由许多标准的、可兼容的基本单位(称为模块)构成,模块之间通过规定的…...
站点创建/中国十大关键词
PostgreSQL中生成列是从其他列计算而来的特殊列。生成列与普通列不同,不是固定的值,而是又引用表中其他列的表达式决定的。生成列在SQL标准(ISO/IEC 9075)中引入,被主流RDBMS支持,PostgreSQL12开始支持生成…...
河北专业网站制作/短视频推广app
Given numRows, generate the first numRows of Pascals triangle. For example, given numRows 5,Return [[1],[1,1],[1,2,1],[1,3,3,1],[1,4,6,4,1] ]题目标签:Array 题目给了我们一个numRows,让我们写出这个行数的杨辉三角。来观察一下原题例子&…...
中学生网站源码/媒体宣传推广方案
硬件工程师跟结构工程师交互的文件,就只有结构图了,也就是PCB板框,这类文件一般是由AutoCAD导出的DWG、DXF文件,当然,也有只给你3D图的(如SolidWorks、Pro-E等),让你自己导。 这里以…...
杭州市做外贸网站的公司/微信营销模式有哪些
本文整理自2017云栖大会-成都峰会上阿里云高级技术专家许玲的分享讲义。讲义主要分享了阿里云在智能客服方面给出的解决方案,并分享了其智能服务机器人“云博士”及其工作思路,并分享了关于阿里云旗下的智能对话分析服务的内容。...
淘宝网页设计流程图/北京seo优化服务
package leetcode.回文数;/*** 判断一个整数是否是回文数。回文数是指正序(从左向右)和倒序(从右向左)读都是一样的整数。* <p>* 示例 1:* <p>* 输入: 121* 输出: true* 示例 2:* <p>* 输入: -121* 输出: false…...
贵州城乡建设部网站/seo兼职外包
MATLAB 下的数字信号处理实现示例 附录一 信号、系统和系统响应 1、理想采样信号序列 ( 1)首先产生信号 x(n),0<n<50 n0:50; %定义序列的长度是 50 A444.128; %设置信号有关的参数 a50*sqrt(2.0)*pi; T0.001; %采样率 w050*sqrt(2.0)*pi; xA*exp(-a*n*T).*sin(w0*n*T); %…...