查不到备案的网站/windows优化大师靠谱吗
概述
平面数据处理器(Planar Data Processor, PDP)沿宽x高的前两个维度平面执行操作,在NVDLA版中,PDPD旨在实现池化层,module定义在NV_NVDLA_pdp.v。支持最大、最小和平均池化方法。平面内的几个相邻输入元素将被发送到非线性函数来计算一个输出元素。下图显示了最大池的一个示例。3x2相邻元素中的最大值是合并结果值
下图显示了PDP子单元的内部模块,以及与其他单元和子单元的连接。该图从概念上捕捉了功能,但没有显示实际的RTL模块和层次结构。平面数据处理子单元从SDP或MCIF/SRAMIF接收数据,并将数据发送到MCIF/SRAMIF。
池化操作在一个平面内完成,不同平面之间没有干扰。下图显示了在一个平面上池化的完整方案,两个相邻内核的偏移量称为步距(stride)。当步距小于核的R和S时,存在重叠线,一些行可能被两个以上的相邻内核使用。输入数据按光栅扫描顺序流动,对于每个池内核,操作的数据也以光栅扫描顺序流动。
如果输入数据元素是内核的第一个元素,它将被存储到共享行缓冲区。共享行缓冲区中的数据被称为部分结果。如果一个输入数据元素既不是内核的第一个元素也不是最后一个元素,它将使用共享缓冲区中已有的部分结果进行操作,结果将存储到原始部分结果的同一条目中。部分结果计算在预处理块中完成。
- 在最大/最小池化方案的情况下,部分结果是输入元素的最大/最小值和原始部分结果。
- 在平均池方案的情况下,部分结果是输入元素和原始部分结果的总和。
如果输入数据元素是内核的最后一个元素,它将与来自共享行缓冲区的已有部分结果一起操作,以生成pre-final结果。后处理模块将从共享行缓冲区获取pre-final结果,并在适当操作后生成最终结果。这个最终结果被发送到SRAMIF或MCIF。
- 在最大/最小池化方案的情况下,pre-final结果是最终结果,不需要额外的操作。
- 在平均池化方案的情况下,最终结果可以通过以下方式计算
除法对于硬件实现来说是昂贵的,所以用一对scale_factors将除法转化为乘法。
共享同一行数据的内核的最大数量由ceiling(Kernel _ height / Stride_H)决定 。一个平面内所需的总缓冲器条目数是width _ out×ceiling(Kernel _ height / Stride_H) ,并在RTL设计中分配总缓冲区入口号total_buf_entry 在一个平面内如下,每个entry 112位:
由于池化操作是一种下采样方法,因此有大量信息被丢弃。大型内核中的池化破坏性太大。在当前分析的网络中,有三种最常见的情况,一种是池大小为3x3,步幅为2x2。另一个是池大小2x2,步幅2x2,最后一个是池大小3x3,步幅1x1。还有另外两种较少使用的情况:一种是池大小为3x3,步幅为3x3。另一个是池大小7x7,步幅1x1,常用网络的池化数据如下:
所以2 ~ 8个池内核大小(宽度和高度)范围和1~8个步长范围对于正常使用来说足够了。在RTL设计中,我们将池化内核大小范围设置为1~8,将步幅范围设置为1 ~ 16。
平面数据处理子单元有两条输入路径。一个是单点数据处理子单元,另一个是外部RAM (MC/SRAM)。平面处理子单元有一个输出数据路径。输出数据总是发送到PDP外部的RAM(MC/SRAM)。在通常的实践中,在卷积层之后插入一个池化层。为了节省内存访问消耗,如果满足以下条件,平面数据处理子单元应直接从点处理单元接收数据。假设输出宽度是,以字节表示的总缓冲区大小为
,重叠行号
,以字节为单位的数据宽度是数据宽度 ,空间平面的数量称为正在进行的通道数量
,正常情况下,
应该等于kernel_per_group(对于INT16/FP16为16,对于INT8流水线为32),以下是平面加工的动态操作条件。
当输入数据来自点处理子单元时,输入数据序列与卷积输出序列相同,如下图所示。
输出顺序如下图所示。
如果不满足planar processing on-the-fly操作条件,planar processing应在off-fly模式下工作,它从PDMA接收数据,正在进行的通道数始终为16。分两种情况,一种是非分幅,一种是分幅。输入数据序列如下图所示。
输出数据序列如下图所示。
缓冲区大小估计
平面数据处理子单元中有三个主要的缓冲区:共享行缓冲区、读DMA缓冲区和写DMA缓冲区。对于共享行缓冲区,其大小决定了PDP是否可以直接处理来自SDP的数据。基于输入数据立方体高度,池化内核高度
,池内核在高度方向上
,输出数据立方体宽度
,组大小(int16/FP16的16个元素或int8的32个元素,~32byte),Groupsize和bytes_per_element(int8 为14/8,INT16为28/8,FP16为28/8)。
如果共享行缓冲区容量小于所需的消耗大小,PDP必须在离线模式下工作,因此会有性能下降,因为需要额外的时间来将数据存储到MC/SRAM,然后取回PDP进行池化处理。
上表中,最小case大多数下小于7KBytes,因此,为了平衡性能,将共享行缓冲区大小设置为7kBytes。
对于读DMA缓冲区,确定其大小有两个限制,一个是涵盖MC访问延迟,假设为128个周期。另一个是接入带宽,峰值性能的情况下是每个周期8字节(int8中8个元素,int16/fp16中4个元素)。所以读DMA缓冲区的大小是128×8 = 1kBytes。
功耗
NVDLA 1.0中池层的平面处理子单元目标,根据对当前网络的分析,平面处理使用率预计不会很高。
根据池层数百分比,平面处理子单元很可能大部分时间处于空闲状态。因此,子单元级时钟门控非常重要。
相关文章:

NVDLA专题10:具体模块介绍——Planar Data Processor
概述 平面数据处理器(Planar Data Processor, PDP)沿宽x高的前两个维度平面执行操作,在NVDLA版中,PDPD旨在实现池化层,module定义在NV_NVDLA_pdp.v。支持最大、最小和平均池化方法。平面内的几个相邻输入元素将被发送到非线性函数来计算一个…...

面向财商人群的AI垂直产品 —— AI股票助手
在数字化转型的大潮中,AI技术正在重塑各行各业,尤其是金融市场。对于那些渴望在瞬息万变的股市中保持敏锐洞察力的金融分析师、投资者及股票爱好者来说,一款强大而智能的工具显得尤为重要。今天,我们将向大家介绍一款专为财商人群打造的AI垂直产品——AI股票助手。 一、产…...

玩AI第二步——python 环境安装
python 环境安装 前言 通常,我们会直接去python官网下载一个安装包直接安装即可. 但是这样很不好,总不能把所有版本的python都安装一遍 所以,这里安装minconda,是一个轻量级的Python环境管理工具,仅包括conda、Python及其所需的基本依赖库。因此,它的…...

【图解秒杀系列】秒杀技术点——静态化
【图解秒杀系列】秒杀技术点——静态化 什么是静态化、静态化的作用如何实现静态化FreeMarker、Thymleaf处理流程问题 OpenResty Lualua_shared_dict & lua-resty-template处理流程具体操作 什么是静态化、静态化的作用 静态化就是指通过某种静态化技术,将原本…...

Simple RPC - 05 从零开始设计一个客户端(下)_ 依赖倒置和SPI
文章目录 Pre概述依赖倒置原则与解耦设计与实现1. 定义接口来隔离调用方与实现类2. 实现类DynamicStubFactory3. 调用方与实现类的解耦 依赖注入与SPI的解耦依赖注入SPI(Service Provider Interface) 总结 Pre Simple RPC - 01 框架原理及总体架构初探 …...

2024新型数字政府综合解决方案(三)
新型数字政府综合解决方案通过融合人工智能、大数据和云计算技术,建立了一个智能化、互联互通的政府服务平台,旨在提升政府服务效率与透明度。该方案通过全面数字化政务流程,实现数据的实时共享和自动化处理,使公众能够便捷地访问…...

计算机毕业设计hadoop+spark+hive知识图谱音乐推荐系统 音乐数据分析可视化大屏 音乐爬虫 LSTM情感分析 大数据毕设 深度学习 机器学习
流程: 1.Python采集网易云音乐歌手、歌词、音乐、评论等约10-20万海量数据,存入mysql数据库; 2.使用pandasnumpy/MapReduce对mysql中四类数据进行数据清洗,写入.csv文件并上传至hdfs(含评论NLP文本分类/lsm情感分析); 3.使用hive建…...

值类型与引用类型
值类型 在Swift中,如果一个对象是用struct实现的,则该对象为值类型,在被赋值给常量或者变量时或者作为参数传递给函数时,值类型总是被复制,复制后的对象与之前的对象指向不同的内存。 Swift的基本类型(Array、Dictio…...

C++STL初阶(12):stack和queue的初阶实现
1. stack的选型 对于栈的实现是我们非常熟悉的过程: C语言基础数据结构——栈和队列_栈和队列 插入取出数据-CSDN博客 _top表示下标,_capacity表示空间大小: 那么按照我们原来的思路,利用_top和_capacity T*来给stack构形。 temp…...

汽车IVI中控OS Linux driver开发实操(二十三):驱动的设备probe及匹配
第一个函数:probe linux驱动模型是分成三个部分的,设备(结构体device),驱动(结构体device_driver),总线(结构体bus_type)。在Linux内核中,设备驱动通常会实现一个probe函数,它是...

华为od(D卷)二叉树计算
文章目录 题目描述输入描述输出描述示例1思路代码 题目描述 给出一个二叉树如下图所示: 6/ \7 9\ / -2 6 请由该二叉树生成一个新的二叉树,它满足其树中的每个节点将包含原始树中的左子树和右子树的和。 20 (7-296)/ \-2 6\ / 0 0 左子树…...

技术爱好者完全用台式机部件定制游戏笔记本电脑
高端笔记本电脑的功能强大到令人难以置信的地步,但大多数笔记本电脑在至少几个关键性能方面仍然落后于台式机。一位 YouTuber 对这种情况感到厌倦,为了抹除这种差距,他开始了为期 14 个月的旅程,使用真正的台式机硬件打造自己的笔…...

100个练习学习Rust!if・Panic・演练
之前的文章 【0】准备 【1】构文・整数・变量 ← 上回 【2】 if・Panic・演练 ← 本次 这是“100 Exercise To Learn Rust”的第2次练习!本次的主题包括 if 表达式、panic 机制,以及对前面内容的总结练习。 本次相关的页面如下: 2.3. Bran…...

MODELSIM仿真报错解决记录
目录 问题:Modelsim报错:Error (10228): Verilog HDL error at Line_Shift_RAM_1Bit.v(39): module “Line_Shift_RAM_1 原因:创建的IP核放到了别的位置 解决方法:删掉IP核以及QIP等文件,将IP核创建到工程目录下 问…...

day33-负载均衡实战
01.问题总结 1.rsync同步注意目录加/和不加/的区别 2.安装wordpress过程中禁止使用IP安装,解析成域名安装 比如安装过程 10.0.0.7--->填写数据库信息--->写入数据库中 如果安装完成后再使用www.wp.com访问,不能访问页面乱码的问题。 3.挂载wordpress挂载uplo…...

网络接口 eno1 未连接或未托管
网络接口 eno1 未连接或未托管,通常意味着该接口没有被识别或没有被配置为自动连接到网络。以下是一些可能的解决方案: 检查物理连接: 确保您的以太网电缆正确连接到 eno1 接口和调制解调器/路由器。 启用网络接口: 使用以下命令…...

Linux I/O 多路复用机制详解
文章目录 1 文件描述符(File Descriptor)1.1 什么是文件描述符?1.2 文件描述符与文件的关系 2 文件描述符集合(File Descriptor Set)2.1 什么是文件描述符集合?2.2 fd_set 结构体 3 select() 函数的工作原理…...

第43课 Scratch入门篇:雪花随风飘
雪花随风飘 故事背景: 雪花轻轻地从灰蒙蒙的天空中飘落下来,它们像是天空中飘洒下来的羽毛,又像是冬日的精灵在翩翩起舞。每一片雪花都独一无二,它们在空中旋转、飘荡,最终缓缓降落在屋顶、树枝、街道和行人的肩头。 程序原理: 众多的雪花肯定是克隆功能,降落过程是通过…...

VueUse 基于 Vue 3 Composition API 的高质量 Hooks 库
VueUse 是什么? VueUse 是基于 Vue 3 Composition API 的高质量 Hooks 库。例如获取滚动的距离 VueUse 官网:VueUse | VueUse VueUse 什么使用? 1、通过npm安装 VueUse npm i @vueuse/core 2、搜索需要使用的函数,例如搜索 useScroll 滚动 3、使用useScroll 滚动函数 …...

ARM CoreLink 系列 5.1.1 -- CI-700 System Address Map 】
文章目录 System Address MapRN SAMRN SAM memory regions and target typesSAM memory region size configurationRN SAM target ID selectionSystem Address Map 所有的CHI 命令都包含一个 Source ID 和 Target ID, 其中 Source ID 可以来自于 RN Node, Target ID 可以来自…...
【数据结构】二叉树(一)
目录 1. 树型结构 概念 树的表示形式 编辑 2. 二叉树(重点) 2.1 概念 2.2 二叉树的性质 2.3 二叉树的存储 2.4 二叉树的遍历 前中后序遍历 层序遍历: 2.5二叉树的基本操作 本篇主要理解树和二叉树相关概念,二叉树遍…...

使用duplicate搭建备库或者级联备库
使用duplicate搭建备库或者级联备库: 主库或者源端: 1. 创建pfile,更改&添加部分参数、传输到备库; 2. 主库(或者源端)的tnsnames.ora文件添加 备库的连接信息 备库: 1. 备库添加静态监听 2…...

【存储学习笔记】4:快照(Snapshot)技术的实现方式
1 快照 1.1 动机 在上一篇《备份》里提到,热备份就是在执行操作时,服务器需要正常处理来自用户或应用对数据的更新,这样能够保证数据7*24小时可用(在很多服务里这是必要的)。 而热备份的困难就是如何保证数据的一致…...

数根(字符串数根公式)
公式:a的数根(a-1)%91; #include <bits/stdc.h> using namespace std; string s; long long sum; int main(){cin>>s;for(int i0;i<s.size();i){sums[i]-0;}cout<<(sum-1)%91; }...

C语言之文件操作上卷(二十一)(逆行人生-2024)
📣📣📣📣📣📣📣📣 ✏️作者主页:枫霜剑客 📋 系列专栏:C语言知识学习归纳总结(逐梦篇专栏合集) 🌲上一篇: C语…...

【微服务架构实战】结合实际案例进行微服务架构的设计与实现
微服务架构实战 结合实际案例进行微服务架构的设计与实现 引言 微服务架构(Microservices Architecture)是一种将大型应用程序拆分成一组小型、独立的服务的方法,每个服务都专注于特定的业务功能,并能够独立开发、部署和扩展。这…...

为什么要有二级指针
提示:文章 文章目录 前言一、背景二、 2.1 2.2 总结 前言 前期疑问: 本文目标: 一、背景 之前一直疑问为什么要有二级指针,一直没有写这个帖子,今天整理了一下,收获颇丰 二、 2.1 // 增加对二级指针…...

如何保证数据不丢失?(死信队列)
死信队列 1、什么是死信 死信通常是消息在特定的场景下表现: 消息被拒绝访问消费者发生异常,超过重试次数消息的Expiration过期时长或者队列TTL过期时间消息队列到达最大容量 maxLength 2、什么是死信队列 只由死信构成的消息队列是死信队列 死信队…...

树莓派开发笔记01-树莓派的系统烧录以及初次开机配置
github主页:https://github.com/snqx-lqh gitee主页:https://gitee.com/snqx-lqh 本项目github地址:https://github.com/snqx-lqh/RaspberryPiLearningNotes 本项目gitee地址:https://gitee.com/snqx-lqh/RaspberryPiLearningNote…...

微信答题小程序产品研发-后端开发
在开发答题小程序的后端服务和数据库设计时,需要考虑API的设计、数据库模型的构建以及数据的安全性和一致性。 这里我采用了云开发,后端语言是Node,数据库是NoSql,然后我简单整理了各个功能模块的后端开发概要和数据库设计。 1. …...