2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
Diffusion Models
1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation
LlamaGen,是一个新的图像生成模型,它将原始的大型语言模型的“下一个标记预测”范式应用于视觉生成领域。传统的自回归模型,如Llama,在视觉信号上没有归纳偏差,如果适当缩放,可以达到最先进的图像生成性能。论文LLM服务框架在优化图像生成模型的推理速度方面的有效性,并实现了326% - 414%的加速。
https://arxiv.org/abs/2406.06525
2、Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
基于人类偏好的现代对齐技术,如RLHF和DPO,通常采用相对于参考模型的散度正则化来确保训练的稳定性。但这通常限制了模型在对齐过程中的灵活性,特别是当偏好数据和参考模型之间存在明显的分布差异时。
论文将重点放在最近的文本到图像扩散模型的对齐上,例如稳定扩散XL (SDXL),并发现由于视觉模式的非结构化性质,这种“参考不匹配”确实是对齐这些模型时的一个重要问题:例如,对特定风格方面的偏好很容易导致这种差异。
基于这一观察结果,提出了一种新的、记忆友好的扩散模型偏好对齐方法,该方法不依赖于任何参考模型,称为边缘感知偏好优化(MaPO)。
https://arxiv.org/abs/2406.06424
3、MLCM: Multistep Consistency Distillation of Latent Diffusion Model
将大型潜在扩散模型提炼成快速采样的模型正引起越来越多的研究兴趣。大多数现有的方法都面临着两难的境地,它们要么(i)依赖于不同采样预算的多个单独的蒸馏模型,要么(ii)以有限的(例如,2-4)和/或适度的采样步骤牺牲生成质量。
为了解决这些问题,论文将最近的多步一致性蒸馏(MCD)策略扩展到具有代表性的ldm,建立了用于低成本高质量图像合成的多步潜在一致性模型(MLCMs)方法。由于MCD的前景,MLCM可以作为各种采样步骤的统一模型。
https://arxiv.org/abs/2406.05768
4、AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising
扩散模型因其在各种应用程序中的强大生成能力而引起了社区的极大兴趣。但是它们典型的多步顺序去噪特性导致了高累积延迟,从而排除了并行计算的可能性。
为了解决这个问题,论文引入了AsyncDiff,这是一个通用的即插即用加速方案,可以跨多个设备实现模型并行。我们的方法将繁琐的噪声预测模型分成多个组件,并将每个组件分配给不同的设备。
该策略显著降低了推理延迟,同时对生成质量的影响最小。具体来说,对于SD v2.1, AsyncDiff在四个NVIDIA A5000 gpu上实现了2.7倍的加速,CLIP分数仅略微降低0.38。
https://arxiv.org/abs/2406.06911
5、Simple and Effective Masked Diffusion Language Models
虽然扩散模型在生成高质量图像方面表现出色,但先前的工作报告了语言建模中扩散和自回归(AR)方法之间的显著性能差距。
论文证明了简单的掩蔽离散扩散比以前认为的更高效。应用了一个有效的训练配方,提高了掩蔽扩散模型的性能,并推导了一个简化的、rao - blackwell化的目标,从而带来了额外的改进。
https://arxiv.org/abs/2406.07524
6、Neural Gaffer: Relighting Any Object via Diffusion
单图像光源重建是一项具有挑战性的任务,涉及几何,材料和照明之间复杂的相互作用推理。许多先前的方法要么只支持特定类别的图像,比如人像,要么需要特殊的捕捉条件,比如使用手电筒。
论文提出了一种新的端到端2D重光照扩散模型,称为神经光栅,该模型采用任何物体的单张图像,并可以在任何新的环境光照条件下合成准确、高质量的重光照图像,只需在目标环境地图上调节图像生成器,而无需明确的场景分解。
我们的方法建立在一个预训练的扩散模型上,并在一个合成的重照明数据集上对其进行微调,揭示和利用扩散模型中存在的对照明的固有理解。我们在合成和原始的互联网图像上评估了我们的模型,并证明了它在泛化和准确性方面的优势。
https://arxiv.org/abs/2406.07520
7、Understanding Hallucinations in Diffusion Models through Mode Interpolation
基于扩散过程的图像生成模型经常被认为表现出“幻觉”,即训练数据中永远不会出现的样本。但是这些幻觉是从哪里来的呢?本文研究扩散模型中一种特殊的失效模式,称之为模态插值。
具体来说,论文发现扩散模型在训练集中的附近数据模式之间平滑地“插值”,可以生成完全不在原始训练分布支持范围内的样本;这种现象导致扩散模型产生了真实数据中从未存在过的内容(即幻觉)。
通过对各种形状的人工数据集的实验,论文展示了幻觉如何导致从未存在过的形状组合的产生。最后证明了扩散模型实际上知道他们什么时候产生幻觉。
https://arxiv.org/abs/2406.09358
8、Hierarchical Patch Diffusion Models for High-Resolution Video Generation
扩散模型在图像和视频合成中表现出了显著的性能。但是将它们扩展到高分辨率的输入是具有挑战性的,并且需要将扩散管道重组为多个独立的组件,这限制了可扩展性,并使下游应用复杂化。
论文以两种原则方式改进pdm,这使得它在训练期间非常高效,并解锁了高分辨率视频的端到端优化。
1、为了加强补丁之间的一致性,开发了深度上下文融合——一种以分层方式将上下文信息从低规模补丁传播到高规模补丁的架构技术。
2、为了加速训练和推理,提出了自适应计算,它将更多的网络容量和计算分配给粗糙的图像细节。结果模型在UCF-101 256²上的类条件视频生成中设置了新的最先进的FVD得分为66.32,Inception得分为87.68,超过了最近的方法100%以上。
https://arxiv.org/abs/2406.07792
9、Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models
本文通过集成一种新的多分辨率网络和时变层归一化,对扩散模型进行了创新的增强。
虽然传统方法依赖于卷积U-Net架构,但最近基于transformer的设计已经展示了卓越的性能和可扩展性。然而,对输入数据进行标记化(通过“补丁化”)的Transformer体系结构面临着视觉保真度和计算复杂性之间的权衡,这是由于涉及标记长度的自注意力操作的二次性质。
虽然更大的补丁尺寸可以提高注意力计算效率,但它们难以捕捉细粒度的视觉细节,从而导致图像失真。为了应对这一挑战,论文提出用多分辨率网络(DiMR)来增强扩散模型,这是一个跨多个分辨率细化特征的框架,从低分辨率到高分辨率逐步增强细节。
还引入了时间相关层归一化(TD-LN),这是一种参数高效的方法,将时间相关参数纳入层归一化,以注入时间信息并获得卓越的性能。
https://arxiv.org/abs/2406.09416
10、DiTFastAttn: Attention Compression for Diffusion Transformer Models
Diffusion transformer, DiT在图像和视频生成方面表现优异,但由于自注意力的二次复杂度而面临计算挑战。论文提出了一种新的训练后压缩方法DiTFastAttn来缓解DiT的计算瓶颈。
确定了DiT推理过程中注意力计算中的三个关键冗余:
空间冗余,即许多注意力集中在局部信息上。
时间冗余,相邻步骤的注意力输出高度相似。
条件冗余,其中条件和无条件推理表现出显著的相似性。
为了解决这些冗余问题,提出了三种技术:
窗口注意与残差缓存,以减少空间冗余。
时间相似性减少,利用步骤之间的相似性。
条件冗余消除,跳过条件生成过程中的冗余计算。
为了证明DiTFastAttn的有效性,论文将其应用于DiT, PixArt-Sigma用于图像生成任务,以及openora用于视频生成任务。评估结果表明,对于图像生成,减少了高达88%的flop,并在高分辨率生成时实现了高达1.6倍的加速。
https://arxiv.org/abs/2406.08552
Vision Language Models (VLMs)
1、An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
这篇文章我们已经介绍过了,就是Pixel Transformer
2、OpenVLA: An Open-Source Vision-Language-Action Model
VLAs在机器人领域的广泛采用一直具有挑战性
现有的vla基本上是封闭的,无法向公众开放,先前的工作未能探索针对新任务有效微调VLAs的方法,这是采用的关键组成部分。
为了解决这些挑战,论文介绍了OpenVLA,这是一个7b参数的开源VLA,在970k个真实世界机器人演示的不同集合上进行了训练。OpenVLA建立在Llama 2语言模型的基础上,结合了一个视觉编码器,该编码器融合了DINOv2和SigLIP的预训练特征。
作为增加数据多样性和新模型组件的产物,OpenVLA在通才操作方面显示出强大的结果,在29个任务和多个机器人实施例中的绝对任务成功率优于RT-2-X (55B)等封闭模型16.5%,参数减少了7倍。
https://arxiv.org/abs/2406.09246
3、Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense?
论文提出了一个新的评估文本到图像(T2I)生成模型生成符合现实生活中常见图像的能力的任务和基准,Commonsense-T2I
给定两个对抗性的文本提示,包含一组相同的动作词,但差异很小,比如“一个没有电的灯泡”和“一个有电的灯泡”,模型是否可以进行视觉常识推理,例如,相应地产生适合“灯泡未亮”和“灯泡亮”的图像。
数据集由专家精心手工管理,并使用细粒度标签(如常识类型和预期输出的可能性)进行注释,以帮助分析模型行为。
论文对各种最先进的(SOTA) T2I模型进行了基准测试,令人惊讶地发现,图像合成与真实照片之间仍然存在很大差距——即使DALL-E 3模型在Commonsense-T2I上也只能达到48.92%,而SDXL模型也只能达到24.92%的精度。
https://arxiv.org/abs/2406.07546
4、MuirBench: A Comprehensive Benchmark for Robust Multi-image Understanding
MuirBench是一个专注于多模式llm的鲁棒多图像理解能力的的基准。MuirBench由12个不同的多图像任务(例如,场景理解,排序)组成,涉及10类多图像关系(例如,多视图,时间关系)。
MuirBench由11,264张图像和2,600个选择题组成,以成对的方式创建,其中每个标准实例与具有最小语义差异的无法回答的变体配对,以便进行可靠的评估。
通过对20个最近的多模态llm进行评估,即使是像gpt - 40和Gemini Pro这样表现最好的模型,也很难解决MuirBench问题,准确率分别达到68.0%和49.3%。
https://arxiv.org/abs/2406.09411
Image Generation & Editing
1、GTR: Improving Large 3D Reconstruction Models through Geometry and Texture Refinement
论文提出了一种基于多视图图像的三维网格重建方法。这个方法从大型重建模型(如LRM)中获得灵感,该模型使用基于Transformer的三平面生成器和在多视图图像上训练的神经辐射场(NeRF)模型。
https://arxiv.org/abs/2406.05649
2、IllumiNeRF: 3D Relighting without Inverse Rendering
论文提出了一种更简单光源合成方法:首先使用光照条件下的图像扩散模型重新为每个输入图像打光,然后用这些重新光照图像重建神经辐射场(NeRF),从这些图像中在目标光照下呈现新的视图。这个方法再多个基准测试中取得了最先进的结果。
https://arxiv.org/abs/2406.06527
3、Unified Text-to-Image Generation and Retrieval
论文探索了mlm的内在判别能力,并引入了一种生成检索方法,以不需要训练的方式进行检索。随后,我们以自回归生成的方式将生成和检索统一起来,并提出了一个自主决策模块,在生成的图像和检索到的图像之间选择最匹配的图像作为文本查询的响应。
https://arxiv.org/abs/2406.05814
4、An Image is Worth 32 Tokens for Reconstruction and Generation
生成模型的最新进展突出了图像标记化在高效合成高分辨率图像中的关键作用。与直接处理像素相比,将图像转换为潜在表示的标记减少了计算量,提高了生成过程的有效性和效率。
先前的方法,如VQGAN,通常使用具有固定下采样因子的二维潜在网格。但是这些二维标记化在管理图像中存在的固有冗余方面面临挑战,其中相邻区域经常显示相似性。
为了克服这个问题,论文引入了一种基于transformer的一维标记器(TiTok),这是一种将图像标记为一维潜在序列的创新方法。TikTok提供了更紧凑的潜在表示,产生比传统技术更高效和有效的表示。
例如,一个256 x 256 x 3的图像可以减少到32个离散的标记,与之前的方法获得的256或1024个标记相比,这是一个显著的减少。尽管它的性质紧凑,但TiTok以最先进的方法实现了竞争性能。使用相同的生成器框架,TiTok获得了1.97 gFID,在ImageNet 256 x 256基准测试中显著优于MaskGIT基线4.21。
当涉及到更高的分辨率时,TiTok的优势变得更加明显。在ImageNet 512 x 512基准测试中,TiTok不仅优于最先进的扩散模型DiT-XL/2 (gFID 2.74 vs. 3.04),而且还将图像标记减少了64倍,从而使生成过程加快了410倍。
https://arxiv.org/abs/2406.07550
5、Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation
论文提出了一种有效的方法来构建数据集,用于主题驱动的编辑和生成的方法Toffee。
数据集构建不需要任何主题级别的微调。在预训练两个生成模型后,能够生成无限数量的高质量样本。并构建了第一个用于主题驱动的图像编辑和生成的大规模数据集,其中包含500万图像对,文本提示和掩码。
这个数据集是之前最大数据集的5倍,但成本却降低了数万个GPU小时。为了测试所提出的数据集,论文还提出了一个能够进行主题驱动的图像编辑和生成的模型。通过简单地在数据集上训练模型,它得到了有竞争力的结果,说明了数据集构建框架的有效性。
https://arxiv.org/abs/2406.09305
Video Understanding Generation
1、Vript: A Video Is Worth Thousands of Words
多模态学习的进步,需要高质量的视频文本数据集来提高模型性能。Vript通过精心注释的12K高分辨率视频语料库解决了这个问题,为超过420K的片段提供了详细、密集和类似脚本的字幕。
每个片段都有一个约145字的标题,比大多数视频文本数据集长10倍以上。与之前数据集中只记录静态内容的字幕不同,不仅记录了内容,还记录了摄像机操作,包括镜头类型(中景、特写等)和摄像机运动(平移、倾斜等),从而将视频字幕增强为视频脚本。
https://arxiv.org/abs/2406.06040
2、MotionClone: Training-Free Motion Cloning for Controllable Video Generation
基于运动的可控文本到视频生成涉及到控制视频生成的运动。以前的方法通常需要训练模型来编码运动线索或微调视频扩散模型。
当这些方法应用于训练域之外时,往往会导致次优运动生成。论文提出了MotionClone,这是一个无需训练的框架,可以从参考视频克隆运动来控制文本到视频的生成。
大量的实验表明,MotionClone在全局摄像机运动和局部物体运动中都表现得很熟练,在运动保真度、文本对齐和时间一致性方面具有显著的优势。
https://arxiv.org/abs/2406.05338
3、MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos
多模态语言语言模型(mllm)展示了“世界模型”的新兴能力——解释和推理复杂的现实世界动态。为了评估这些能力,论文假设视频是理想的媒介,因为它们包含了现实世界动态和因果关系的丰富表示。然后推出MMWorld,这是一个多学科、多面、多模态视频理解的新标杆。
MMWorld由一个人工注释的数据集和一个合成数据集组成,前者用于评估带有整个视频问题的mllm,后者用于分析单一感知模态下的mllm。MMWorld总共包含1,910个视频,跨越7个大学科和69个子学科,完成6,627对问答和相关字幕。
https://arxiv.org/abs/2406.08407
4、NaRCan: Natural Refined Canonical Image with Integration of Diffusion Prior to Video Editing
论文提出了一个视频编辑框架NaRCan,它集成了混合变形场和扩散,然后生成高质量的自然规范图像来表示输入视频。
利用单应性来建模全局运动,并使用多层感知器(mlp)来捕获局部残余变形,增强模型处理复杂视频动态的能力。
通过在训练的早期阶段之前引入扩散,模型可以确保生成的图像保持高质量的自然外观,使生成的规范图像适合视频编辑中的各种下游任务,这是当前基于规范的方法无法实现的功能。
另外还结合了低秩自适应(LoRA)微调,并引入了噪声和扩散先验更新调度技术,将训练过程加快了14倍。大量的实验结果表明,在各种视频编辑任务中优于现有的方法,并产生连贯和高质量的编辑视频序列。
https://arxiv.org/abs/2406.06523
5、TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation
论文提出了TC-Bench,这是一个精心制作的文本提示、相应的真实视频和稳健评估指标的基准。
提示明确了场景的初始和最终状态,有效地减少了框架开发的模糊性,并简化了转换完成的评估。
通过收集与提示相对应的对齐的真实世界视频,将TC-Bench的适用性从文本条件模型扩展到可以执行生成帧插值的图像条件模型。论文还开发了新的指标来衡量生成视频中组件转换的完整性,与现有指标相比,这些指标与人类判断的相关性明显更高。
https://arxiv.org/abs/2406.08656
https://avoid.overfit.cn/post/d279d7b4b6c14bbb91de0d8fd786ecd8
作者:Youssef Hosni
相关文章:
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。 Diffusion Models 1、Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation LlamaGen,是一个…...
Centos Stream9 和Centos Stream10的下载网址
Index of /https://mirror.stream.centos.org/...
chrome 录制器及性能分析工具的使用
需求背景: 对比不同VPN方案网络延迟的差异。 验证工具: chrome浏览器自带的录制器、性能插件可以完美的解决这个问题。 注意:录制的操作都在当前页面,不存在新开标签页的场景 解决方案: 使用chrome录制器…...
如何打造稳定、好用的 Android LayoutInspector?
速度极慢,遇到复杂的布局经常超时 某些情况无法选中指定的 View 本文将围绕 LayoutInspector 的痛点,分析问题并修复,最终将 LayoutInspector 变成一个稳定、好用的插件。 二、加速 Dump View Hierarchy 2.1 问题描述 开发复杂业务的同学…...
C++ Thead互斥量死锁,mutex如何防止死锁---C++11多线程快速学习
假设有两个线程 T1 和 T2,它们需要对两个互斥量 mtx1 和 mtx2 进行访问,而且需要按照以下顺序获取互斥量的所有权: - T1 先获取 mtx1 的所有权,再获取 mtx2 的所有权。 - T2 先获取 mtx2 的所有权,再获取 mtx1 的所有…...
Ubuntu 之Glade图形化设计器
演示环境说明:本机使用Windows 11 家庭版本搭载 Ubuntu 22.04.4 LTS 子系统,同时并安装Ubuntu桌面虚拟化软件XLaunch。 如果没有搭建好上述问题,请参考:windows11子系统Ubuntu 22.04.4子安装图形化界面 Glade是什么?…...
152. 乘积最大子数组
152. 乘积最大子数组 题目链接:152. 乘积最大子数组 代码如下: class Solution { public:int maxProduct(vector<int>& nums) {int resnums[0];vector<int> f(nums.size()1,0),g(nums.size()1,0);f[0]nums[0],g[0]nums[0];for(int i1…...
proactor模式
Proactor模式是一种异步I/O的设计模式,它允许程序直接发起一个异步I/O操作并立即返回,而不需要等待该操作完成。一旦I/O操作实际完成,系统会通知相应的完成处理程序(Completion Handler),该处理程序随后执行…...
Charles抓包工具
一、charles简介 1,charles是什么 Charles中文名叫青花瓷,它是一款基于HTTP协议的代理服务器,通过成为电脑或者浏览器的代理,然后截取请求和请求结果达到分析抓包的目的。 特点:跨平台、半免费 2,charles工作原理 前…...
RabbitMQ如何保证消息可靠
解决办法: 1、做好消息确认机制(pulisher、consumer[手动ACK]) 2、每一个发送的消息都在数据库做好记录。定期将失败的消息再次发送一遍 消息确认机制: 生产者确认模式:确认消息是否发送到broker,失败…...
学习笔记——路由网络基础——路由的高级特性
七、路由的高级特性 1、路由迭代(路由递归) 路由必须有直连的下一跳才能够指导转发,静态路由或BGP路由的下一跳可能不是直连的邻居,因此需要计算出一个直连的下一跳和对应的出接口,这个过程就叫做路由迭代(路由递归)。 添加一条去往20.1.1.…...
网络编程之XDP、TC和IO_URING以及DPDK
一、网络编程常见的技术 在前面已经分析过了XDP、TC和eBPF。也基本把三者间的关系理清了,但现在又有一个疑惑涌了上来。在前面提到过的IO_URING和DPDK与这些技术有什么关系呢?其实只要认真的看过分析文章可能大家心里都已经基本清楚了。 正如在前面不断…...
晶谷高温烧结导电浆料用低熔点玻璃粉 晶谷耐高温导电漆导电油墨高温玻璃粉
晶谷浆料玻璃粉是一种用于电子浆料的材料,它在电子浆料中起到粘结和降低烧结温度的作用,能够提高浆料与基材之间的结合力。 浆料玻璃粉的性能特点包括: - 软化点:软化点在350至650度之间。 - 热膨胀系数:热膨胀系数…...
【Mysql】DQL操作单表、创建数据库、排序、聚合函数、分组、limit关键字
DQL操作单表 1.1 创建数据库 •创建一个新的数据库 db2 CREATE DATABASE db2 CHARACTER SET utf8;•将db1数据库中的 emp表 复制到当前 db2数据库 ** 1.2 排序** 通过 ORDER BY 子句,可以将查询出的结果进行排序 (排序只是显示效果,不会影响真实数据) 语法结构:…...
Excel 常用技巧(四)
Microsoft Excel 是微软为 Windows、macOS、Android 和 iOS 开发的电子表格软件,可以用来制作电子表格、完成许多复杂的数据运算,进行数据的分析和预测,并且具有强大的制作图表的功能。由于 Excel 具有十分友好的人机界面和强大的计算功能&am…...
【Linux 基础】文件与目录管理
1. 文件和目录的基本概念 文件:是数据的集合,可以是文本、图像、视频等。 目录(也称为文件夹):是文件和子目录的集合,用于组织文件。 2. 目录和路径 绝对路径:从根目录(/&#x…...
C++系列-String(一)
🌈个人主页:羽晨同学 💫个人格言:“成为自己未来的主人~” string是用于字符串,可以增删改查 首先,我们来看一下string的底层 接下来,我们来看一下string的常用接口有哪些: #define _CRT_S…...
服务器硬件的基础知识
引言 服务器是现代数据中心和企业IT基础设施的核心组成部分。了解服务器硬件的基本知识不仅有助于选择和维护服务器,还能提高系统性能和可靠性。本文将详细介绍服务器硬件的各个方面,包括处理器、内存、存储、网络、散热和电源等,帮助读者全…...
java基于ssm+jsp 汽车在线销售系统
1 前台功能模块 网站首页 网页首页汽车在线销售系统模块如下:首页、汽车信息、新闻资讯、留言反馈、我的收藏管理等功能图1 图1网页首页 网页前台车辆信息效果图如图2所示 图2 车辆信息界面图 2 管理员功能模块 管理员输入个人的账号、密码登录系统,…...
【干货】Android中高级开发进阶必备资料(附:PDF+视频+源码笔记)
4、数据传输与序列化 5、Java虚拟机原理 6、高效IO 设计思想解读开源框架 随着互联网企业的不断发展,产品项目中的模块越来越多,用户体验要求也越来越高,想实现小步快跑、快速迭代的目的越来越难,插件化技术应用而生。如果没有…...
AI通用写作模版,可以在此基础上进行修改
指令 角色 作者 :你是一位自媒体爆文写作专家,负责撰写文章,具备对特定主题的深入理解和一定的写作技巧。读者 :25-55岁通用人群,对资讯新闻类感兴趣,需要易于理解且富有启发性的内容。 技能 研究能力&…...
openEuler2203SP3自定义ios
需求: 1、legacy启动 2、/boot分区1G,剩余给/,lvm分区 3、创建root密码和一个普通用户user,密码Hello2024 4、服务器安装(选上development、legacy-unix、security-tools) 5、关闭firewalld、selinux …...
一年又一年志愿
--第一篇 20220624十年苦读,青春飞扬,其道大光,来日方长。又是一年高考时,高考改变命运,但是后面还有更关键几步,跟大家一起聊聊。之前写我考状元的经历,堂弟考省前十的经历,有不少…...
NL2SQL进阶系列(1):DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解
1. MindSQL(库) MindSQL 是一个 Python RAG(检索增强生成)库,旨在仅使用几行代码来简化用户与其数据库之间的交互。 MindSQL 与 PostgreSQL、MySQL、SQLite 等知名数据库无缝集成,还通过扩展核心类,将其功能扩展到 Sn…...
OpenGL3.3_C++_Windows(15)
理解glad: OpenGL只是一个标准/规范,具体的实现是由驱动开发商针对特定显卡实现的,由于OpenGL驱动版本众多,它大多数函数的位置都无法在编译时确定下来,需要在运行时查询,因此开发者需要在运行时获取函数…...
NeRF从入门到放弃5: Neurad代码实现细节
Talk is cheap, show me the code。 CNN Decoder 如patch设置为32x32,patch_scale设置为3,则先在原图上采样96x96大小的像素块,然后每隔三个取一个像素,降采样成32x32的块。 用这32x32个像素render feature,再经过CNN反卷积预测…...
【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【11】ElasticSearch
持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【11】ElasticSearch 简介基本概念ElasticSearch概念-倒排索引安装基本命令Mapping-映射ElasticSearch7-去掉type概念Es-数组(数组装着Object)的扁平化处理ik 分词…...
Pip换源详解
Pip换源是指将pip(Python的包管理工具)的默认源更改为其他源。以下是关于Pip换源的详细说明: 一、Pip换源的原因 访问被阻止的源:在某些地区或网络环境下,直接访问官方的Python Package Index (PyPI) 可能受到限制或…...
【Docker】——安装镜像和创建容器,详解镜像和Dockerfile
前言 在此记录一下docker的镜像和容器的相关注意事项 前提条件:已安装Docker、显卡驱动等基础配置 1. 安装镜像 网上有太多的教程,但是都没说如何下载官方的镜像,在这里记录一下,使用docker安装官方的镜像 Docker Hub的官方链…...
广东app开发公司排行榜/排名优化软件点击
PyInstaller的原理简介PyInstaller其实就是把python解析器和你自己的脚本打包成一个可执行的文件,和编译成真正的机器码完全是两回事,所以千万不要指望成打包成一个可执行文件会提高运行效率,相反可能会降低运行效率,好处就是在运…...
东莞 网站建设 定制水/手机百度app下载
我们可以通过Cesium.Transforms对象来获取到相关的方法: Cesium.Transforms.eastNorthUpToFixedFrame 常用的有Cesium.Transforms.eastNorthUpToFixedFrame这个方法,这个方法支持通过传入一个中心点,然后获取到中心点的正东正北,…...
忻州市住房城乡建设局网站/网站收录软件
Description P教授要去看奥运,但是他舍不下他的玩具,于是他决定把所有的玩具运到北京。他使用自己的压缩器进行压、缩,其可以将任意物品变成一堆,再放到一种特殊的一维容器中。P教授有编号为1...N的N件玩具,第i件玩具经…...
wordpress显示代码框/最专业的seo公司
Linux下各种后缀名文件安装刚刚开始接触Linunx,摸索了几天也有了一点点眉目,现在在Linux下终于可以上网了,方便多了。一直头疼文件安装,安装文件下载下来了却不知道怎么安装。在网上找到一篇很好的文章,很适合像我这样的菜鸟级的选…...
沧州营销型网站建设/seo一个月工资一般多少
jQuery Ajax 全解析 本文地址: jQuery Ajax 全解析 本文作者:QLeelulu 转载请标明出处! jQuery确实是一个挺好的轻量级的JS框架,能帮助我们快速的开发JS应用,并在一定程度上改变了我们写JavaScript代码的习惯。 废话少说ÿ…...
网站建设指标/同城推广引流平台
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼2.3 创建数据类型和子类型(Creating Types and Subtypes)使用变量时,除了以某标识符作为变量的名称外,还要指定该变量的数据类型。一个数据类型定义了变量可接受的值以及所能执行的操作。比如说,…...