CPU性能优化-CPU特性
现代CPU持续的添加新特性,使用这些特性可以大大简化找到底层问题的方法。
1 自顶向下微架构分析TMA,是一种识别应用程序低效使用CPU微架构的强大技术,识别负载的瓶颈,定位出现问题的代码具体位置,封装了CPU微架构中复杂的技术点。
2 最后分支记录(last branch record)LBR是在执行过程中连续记录最新分支结果的机制,通常用来采集调用栈,热点分支,计算每个分支的错误预测概率等等。
3 基于处理器事件的采样是一种增强的采样技术,主要优势有降低采样开销和提供,精确事件的能力。精确事件可以定位导致特定性能事件的具体指令。
4 Intel 处理器追踪,是一种基于每条指令的时间戳记录和重建程序执行过程的工具,主要用途是对性能故障进行事后分析和根因定位。
6.1 自顶向下微架构分析技术
TMA是识别程序CPU性能瓶颈的一种非常强大的技术,不需要开发者对CPu的微架构和PMC有深入理解,就能有效的找到CPU的性能瓶颈,
TMA能识别程序中每个热点停滞执行的原因,导致停滞瓶颈可能跟前端绑定,后端绑定,退休,错误投机有关。图28描述了TMA性能瓶颈分类的概念,我们知道CPU中有内存缓冲区,它们持续跟踪正在执行的指令的信息。只要信的指令被取地址或者译码,都在回在这些缓冲区中记录新的条目。如果在指定执行周期中指令对应的微操作没有被分配,可能有两种原因,不能对它进行取地址和译码。后端负载过重导致无法为新的微操作分配资源。被分配和调度执行但是没有退休的微操作跟错误投机相关。
TMA通过采集特定指标来观察程序的执行情况,基于这些指标,通过将应用程序关联到某个分类来表征其类型。每个分类中都嵌套更细的分类。可以更好的细分程序中CPU性能瓶颈,我们多次运行被测试程序,每次都关注特定的指标并往下钻。直到找到更详细的性能瓶颈分类。
TMA 槽位,
非停滞 停滞
退休 错误投机 前端绑定 后端绑定
基础轻量 微码序列器 分支预测错误 机器清理 读取延迟 读取带宽 核绑定 内存绑定
浮点算数运算 其他 辅助, ITLB未命中 指令缓冲未命中 分支重定向 读取源1,读取源2, 除法器 执行端口利用率, 存储绑定,L1缓存绑定 L2缓存绑定 Ln缓存绑定 外存绑定。
标量运算,向量运算 3+ 号端口,1或2号端口 0号端口,内存带宽,内存延迟。
在真实的应用场景中,性能可能受限于多种因素,TMA需要同时向下钻多个类别,确定每个类别瓶颈对程序性能的影响,分析工具Intel Vtune Profiler AMD uprof 可以在一次基准测试运行中计算所有相关的指标。
前两层的TMA指标都是通过所有流水线槽位利用率来表示的。
6.1.1 Intel Vtune Profiler中的TMA
TMA在最新的Intel Vtune Profiler的微架构搜索分析中有体现,图30展示了7.zip基准测试的分析总结,从图可以看到,CPU错误投机导致了显著的执行时间浪费。
该工具的精妙之处就是可以单击自己感兴趣的指标,可以展示与该指标相关的函数,例如。 单击错误投机指标,你将会看到图31展示的内容。
如果双击Lzma_DecodeReal2函数,Intel Vtune Profiler会展示代码视图,如图32所示,高亮显示的代码对LzmaDec_DecodeReal2函数的分支预测错误贡献最大。
最图32 微架构搜索,源代码和汇编指令视图
6.1.2 linux perf中的TMA
linux内核从4.8开始,perf增加了一个 --topdown参数,可以在perf stat命令中,打印TMA第一层指标,该层只有4个类别。
retiring bad speculat FE bound BE bound
为了获得高层TMA指标的值,linux perf需要剖析整个系统-a, 所以我们可以看到所有的CPU核指标。但是,通过taskset -c 0可以将基准测试绑定到core 0, 所以可以看到第一行,也就是s0-c0对应的这一行。
可以使用toplev工具获得TMA 的第2,3及其他层指标。
相关文章:
CPU性能优化-CPU特性
现代CPU持续的添加新特性,使用这些特性可以大大简化找到底层问题的方法。 1 自顶向下微架构分析TMA,是一种识别应用程序低效使用CPU微架构的强大技术,识别负载的瓶颈,定位出现问题的代码具体位置,封装了CPU微架构中复杂…...
Idea使用Maven连接MySQL数据库
1.首先创建Maven文件 2.在pom.xml里添加代码,配置连接MySQL数据库所需要的配置文件。 <dependencies><dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.49</version&…...
《深入浅出HTTPS》读书笔记(13):块密码算法之迭代模式(续)
CTR模式 每次迭代运算的时候要生成一个密钥流(keystream)。 各个密钥流之间是有关系的,最简单的方式就是密钥流不断递增,所以才叫作计数器模式。 ◎在处理迭代之前,先生成每个密钥流,有n个数据块࿰…...
使用Cmake导入OpenCV库的大坑记录
CMakeLists.txt cmake_minimum_required(VERSION 3.20)set(OpenCV_DIR D:/Package/opencv4/opencv/mingw-build/install) #这里根据自己OpenCV位置设定find_package(OpenCV REQUIRED)project(PROJ1 CXX)add_executable(PROJ1 main.cpp)target_include_directories(PROJ1 PR…...
UE5 打包报错 Unknown structure 的解决方法
在虚幻引擎5.5 打包报错如下: UATHelper: 打包 (Windows): LogInit: Display: LogProperty: Error: FStructProperty::Serialize Loading: Property ‘StructProperty /Game/Components/HitReactionComponent/Blueprints/BI_ReactionInterface.BI_ReactionInterface…...
MySQL之单行函数
目录 1. 函数的理解 单行函数 2. 数值函数 2.1 基本函数 2.2 角度与弧度互换函数 2.3 三角函数 2.4 指数与对数 2.5 进制间的转换 3. 字符串函数 4. 日期和时间函数 4.1 获取日期、时间 4.2 日期与时间戳的转换编辑 4.3 获取月份、星期、星期数、天数等函数 4.4 …...
spring-boot自定义ApplicationListener及源码分析
ApplicationListener是spring boot应用启动时的事件监听器。监听的事件有(包括但不限于): (1)接下来,我们先通过一个例子实现自定义ApplicationListener: 监听器需要实现ApplicationListener<…...
C语言:深入理解指针
一.内存和地址 我们知道计算机上CPU(中央处理器)在处理数据的时候,需要的数据是在内存中读取的,处理后的数据也会放回内存中,那我们买电脑的时候,电脑上内存是 8GB/16GB/32GB 等,那这些内存空间…...
【WPF实现RichTextBox添加文本、自动滚动】
前言 使用WPF 中的RichTextBox控件实现添加文本后自动滚动末尾。因为RichTextBox无法直接绑定数据,所以通过引用System.Windows.Interactivity实现(System.Windows.Interactivity.WPF) 代码 MainWindow.xaml <Window x:Class"WPF…...
量化交易系统开发-实时行情自动化交易-8.4.MT4/MT5平台
19年创业做过一年的量化交易但没有成功,作为交易系统的开发人员积累了一些经验,最近想重新研究交易系统,一边整理一边写出来一些思考供大家参考,也希望跟做量化的朋友有更多的交流和合作。 接下来会对于MT4/MT5平台介绍。 MetaT…...
【HarmonyOS】@Observed和@ObjectLink嵌套对象属性更改UI不刷新问题
【HarmonyOS】Observed和ObjectLink嵌套对象属性更改UI不刷新问题 一、问题背景 使用了Observed和ObjectLink,修改嵌套对象的属性,UI还是不刷新,常见的问题有以下三种形式: 1.多级嵌套,嵌套对象的类并没有添加Observ…...
什么是默克尔树(Merkle Tree)?如何计算默克尔根?
默克尔树的概念 默克尔树(Merkle Tree)是一种特殊的二叉树,它的每个节点都存储了一个数据块的哈希值。哈希值是一种可以将任意长度的数据转换为固定长度的字符串的算法,它具有唯一性和不可逆性的特点,即不同的数据块会产生不同的哈希值&…...
眼部按摩仪WT2605音频蓝牙语音芯片方案 单芯片实现语音提示及控制/手机无线音频传输功能
随着科技的快速发展,人们的生活方式也在不断改变,智能化、便捷化的产品逐渐成为市场的主流。眼部按摩仪作为一种结合了现代科技与健康生活理念的产品,受到了广大消费者的青睐。而在众多眼部按摩仪中,采用WT2605音频蓝牙芯片的方案…...
python打包深度学习虚拟环境
今天师兄让我把环境打包发给他,我才知道可以直接打包深度学习虚拟环境,这样另一个人就不用辛辛苦苦的去装环境了,我们都知道有些论文他需要的环境很难装上。比如装Apex,装 DCN,mmcv-full 我现在把3090机子上的ppft虚拟…...
springboot358智慧社区居家养老健康管理系统(论文+源码)_kaic
毕 业 设 计(论 文) 智慧社区居家养老健康管理系统设计与实现 摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此&…...
复杂网络(二)
一、网络的基本静态几何特征 1.1 度分布 节点的度:在网络中,节点的邻边数称为该节点的度 对于网络中所有节点的度求平均,可得到网络的平均度 度分布:大多数实际网络中的节点的度满足一定的概率分布。定义P(k)为网络中度为k的节…...
Kubernetes 01
MESOS:APACHE 分布式资源管理框架 2019-5 Twitter退出,转向使用Kubernetes Docker Swarm 与Docker绑定,只对Docker的资源管理框架,阿里云默认Kubernetes Kubernetes:Google 10年的容器化基础框架,borg…...
node修改文件名称
node修改名称 var fs require(fs); const events require(events); var path require(path);init(); function init() {//要遍历的文件夹所在的路径const dirPath path.resolve(__dirname, "data");//遍历目录fileDisplay(dirPath); }/*** 文件遍历* param dirP…...
ArcGIS 软件中路网数据的制作
内容导读 路网数据是进行网络分析的基础,它是建立网络数据集的数据来源。 本文我们以OSM路网数据为例,详细介绍OSM路网数据从下载,到数据处理,添加属性,完成符合网络分析的网络数据集的全部过程。 01 数据获取 比较…...
transformers microsoft--table-transformer 表格识别
一、安装包 pip install transformers pip install torch pip install SentencePiecepip install timm pip install accelerate pip install pytesseract pillow pandas pip install tesseract 下载模型: https://huggingface.co/microsoft/table-transformer-s…...
【Spark源码分析】规则框架-草稿
规则批:规则集合序列,由名称、执行策略、规则列表组成。一个规则批里使用一个执行规则。 执行策略 FixedPointOnce 规则: #mermaid-svg-1cvqR4xkYpMuAs77 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px…...
迪米特原则的理解和实践
迪米特原则(Law of Demeter,简称LoD),也被称为最少知识原则(Least Knowledge Principle,LKP),是面向对象设计中的一个重要原则。其核心思想是:一个对象应该对其他对象有最…...
jQuery零基础入门速通(中)
大家好,我是小黄。 在上一篇文章中,我们初步了解了jQuery的基本概念、环境搭建、选择器、基本的DOM操作以及事件处理。接下来,我们将继续深入探讨jQuery的DOM操作和事件处理,以及一些实用的技巧和高级用法。 五、高级DOM操作 5…...
【设计模式系列】中介者模式(十八)
一、什么是中介者模式 中介者模式(Mediator Pattern)是一种行为型设计模式,其核心思想是通过一个中介者对象来封装一系列对象之间的交互,使这些对象不需要相互显式引用。中介者模式提供了一个中介层,用以协调各个对象…...
PDF版地形图矢量出现的问题
项目描述:已建风电场道路测绘项目,收集到的数据为PDF版本的地形图,图上标注了项目竣工时期的现状,之后项目对施工区域进行了复垦恢复地貌,现阶段需要准确的知道实际复垦修复之后的道路及其它临时用地的面积 解决方法&…...
小迪安全第四十二天笔记 简单的mysql注入 mysql的基础知识 用户管理数据库模式 mysql 写入与读取 跨库查询
前言 之前的安全开发我们学习了 php联动数据库的模式 ,这个模式是现在常用的模式 这一节来学习 如何 进行数据库的注入和数据库相关知识 1、了解数据库的结构 我们使用 navicate连接数据库之后看一下 一共四层结构 库 》表》字段》数据 这个层级关系…...
11.25.2024刷华为OD
文章目录 HJ76 尼科彻斯定理(观察题,不难)HJ77 火车进站(DFS)HJ91 走格子方法,(动态规划,递归,有代表性)HJ93 数组分组(递归)语法知识…...
你真的会用饼图吗?JVS-智能BI饼图组件深度解析
在数据可视化的世界里,饼图是我们常见的一种可视化图形。在JVS-智能BI中提供了数据可视化饼图组件,接下来我通过这篇文章详细介绍,从配色方案到图形配置,从显示数据到提示信息,饼图的每一个细节配置。 饼图类图表概述…...
HarmonyOS Next 模拟器安装与探索
HarmonyOS 5 也发布了有一段时间了,不知道大家实际使用的时候有没有发现一些惊喜。当然随着HarmonyOS 5的更新也带来了很多新特性,尤其是 HarmonyOS Next 模拟器。今天,我们就来探索一下这个模拟器,看看它能给我们的开发过程带来什…...
医学机器学习:数据预处理、超参数调优与模型比较的实用分析
摘要 本文介绍了医学中的机器学习,重点阐述了数据预处理、超参数调优和模型比较的技术。在数据预处理方面,包括数据收集与整理、处理缺失值、特征工程等内容,以确保数据质量和可用性。超参数调优对模型性能至关重要,介绍了多种调…...
wordpress cname/优化法治化营商环境
1.No matching distribution found for virtualenv 查询了好多资料,最终找到问题所在: 2.根据上述果然报错ping: www.baidu.com: Temporary failure in name resolution 解决: 最终成功下载虚拟环境 3.cuda编程问题:根据代码运行环…...
网站建设官方网站/免费seo网站优化
海量数据分成两块,一是系统建设技术,二,海量数据应用。 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架。目前可以先学习这个。但是我的观点,在分布式系统出来之前,主要是…...
wordpress网站迁移/学seo的培训学校
先说结论吧,方便快速查询验证。 总结 区别 int 类型大小为 8 字节 int8 类型大小为 1 字节 int16 类型大小为 2 字节 int32 类型大小为 4 字节 int64 类型大小为 8 字节go语言中的int的大小是和操作系统位数相关的,如果是32位操作系统,…...
浙江省建设厅官方网站信用平台/2019年度最火关键词
开始菜单项的顺序保存在以下注册表中: HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\MenuOrder 这个项下面一般有:Favorites、Start Menu、Start Menu2这3个子项,分别对应的是:收藏夹、经典开始菜单、…...
做电脑网站手机能显示不出来怎么办/营销策略4p
转载:http://blog.sina.com.cn/s/blog_675dc44b0100rcqg.html1. 确定已经把xdict32.api 拷贝到Adobe Reader X安装目录下的plug_ins文件夹中(如X:/Program Files/Adobe/Reader 10.0/Reader/plug_ins/)。2. 启动Adobe Reader X后按ctrlk,在弹出的设置窗口…...
网络公司网站建设/昆明百度推广开户费用
中科院外籍院士姚期智:科学家与科学之路 ■姚期智我从事科学工作几十年,也认识了很多杰出的科学家。我自己觉得科学家的生涯很有收获,当科学家是一个非常好的体验,从中可以品尝到巨大的乐趣。首先,我要谈一谈什么是科…...