当前位置：首页 > news >正文

NUMA架构及在极速网络IO场景下的优化实践

news 2026/4/6 6:50:56

NUMA技术原理

NUMA架构概述

随着多核CPU的普及，传统的对称多处理器（SMP）架构逐渐暴露出性能瓶颈。为了应对这一问题，非一致性内存访问（NUMA, Non-Uniform Memory Access）架构应运而生。NUMA架构是一种内存架构模型，旨在解决SMP架构下多核处理器扩展带来的内存访问延迟问题。

NUMA架构的结构

在NUMA架构中，物理内存被划分为多个NUMA节点（Node），每个节点包含一组CPU核心、本地内存、以及可能的其他资源（如PCIe总线系统）。节点之间通过高速互连（如QPI、HyperTransport等）进行通信。每个节点内的CPU核心可以直接访问本节点的本地内存，访问速度较快，而访问其他节点的远程内存则需要通过互连结构，速度相对较慢。

NUMA架构的特点

非一致性内存访问：不同CPU核心访问不同节点内存的速度不同，访问本地节点内存最快，访问远程节点内存较慢。
节点独立性：每个NUMA节点相对独立，拥有自己的CPU核心、内存和可能的I/O资源。
可扩展性：NUMA架构支持系统的水平扩展，可以通过添加更多节点来增加处理能力和内存容量。

NUMA架构的优势

提高内存访问速度：通过允许每个CPU核心快速访问本地内存，减少了内存访问延迟。
提高系统整体性能：NUMA架构能够显著降低内存访问冲突，提高系统并行处理能力。
增强系统可扩展性：支持系统的水平扩展，无需对现有硬件或软件架构进行重大改动。

NUMA架构与多核CPU的关系

在NUMA架构中，多核CPU被划分到不同的NUMA节点中。每个节点内的CPU核心可以高效地访问本地内存，而访问远程内存则相对较慢。这种设计使得多核CPU在处理大规模数据集时能够保持较高的性能，同时避免了SMP架构下的内存访问瓶颈。

NUMA架构在极速网络IO场景下的优化策略

在极速网络IO场景下，系统需要处理大量的网络数据包，这对内存访问速度和处理器性能提出了极高的要求。NUMA架构通过优化内存访问和处理器资源分配，可以在这种场景下显著提高系统性能。

1. 内存亲和性优化

内存亲和性是指将进程或线程绑定到特定的NUMA节点上，以减少跨节点内存访问的延迟。在极速网络IO场景下，可以通过以下步骤实现内存亲和性优化：

步骤一：确定网络设备的NUMA节点

首先，需要确定网络设备（如网卡）所属的NUMA节点。这可以通过读取系统文件来完成，例如：

cat /sys/class/net/eth0/device/numa_node

假设输出为0，表示eth0网卡属于NUMA节点0。

步骤二：绑定进程到特定节点

使用numactl工具将处理网络数据包的进程绑定到与网卡相同的NUMA节点上。例如：

numactl --cpunodebind=0 --membind=0 ./network_processing_app

这样，network_processing_app进程将只在NUMA节点0的CPU核心上运行，并访问该节点的本地内存。

步骤三：验证设置

使用numactl --show命令可以查看当前进程的NUMA资源分配情况，确保设置生效。

2. CPU资源优化

为了避免CPU资源竞争，提高处理器利用率，可以采取以下措施：

合理分配CPU核心

根据网络IO的负载情况，合理分配CPU核心给不同的进程或线程。例如，可以使用taskset命令将进程绑定到特定的CPU核心上：

taskset -c 0-3 ./network_processing_app

这将network_processing_app进程绑定到NUMA节点0的前四个CPU核心上。

启用超线程技术

如果处理器支持超线程技术，可以启用它以增加可用的逻辑CPU核心数。超线程技术允许单个物理核心同时处理多个线程，从而提高并行处理能力。

避免过载

监控CPU使用率，避免单个节点上的CPU过载。可以通过负载均衡策略将负载分散到多个节点上，确保每个节点的CPU资源得到充分利用。

3. 网络数据包处理优化

为了优化网络数据包的处理，可以采取以下措施：

使用多队列网卡

多队列网卡可以将网络数据包分散到多个接收队列上，从而提高数据包的处理速度。确保操作系统和网卡驱动程序支持多队列功能，并配置相应的参数。

启用RSS（Receive Side Scaling）

RSS可以将接收到的网络数据包分散到多个CPU核心上进行处理，从而提高处理效率。在Linux系统中，可以通过配置/sys/class/net/ethX/queues/rx-X/rps_cpus来启用RSS。例如：

echo f - > /sys/class/net/eth0/queues/rx-0/rps_cpus
echo f - > /sys/class/net/eth0/queues/rx-1/rps_cpus
# 重复上述命令，为所有接收队列配置rps_cpus

优化中断处理

减少中断处理的时间开销，可以提高网络IO的处理速度。可以通过调整中断亲和性、使用MSI-X中断等技术来优化中断处理。例如，将中断绑定到特定的CPU核心上：

echo 1 > /proc/irq/X/smp_affinity

其中X是网卡的中断号，1表示将中断绑定到CPU核心0上。

4. 应用层优化

在应用层，可以采取以下措施来优化网络IO性能：

使用非阻塞IO模型

在高并发场景下，使用非阻塞IO模型可以减少线程或进程的数量，降低上下文切换的开销。例如，在Linux系统中可以使用epoll、kqueue等非阻塞IO机制。

IO多路复用

使用IO多路复用技术可以高效地处理多个网络连接。例如，在C语言中可以使用epoll来监听多个网络连接：

#include <sys/epoll.h>
#include <unistd.h>
#include <fcntl.h>int main() {int epoll_fd = epoll_create1(0);struct epoll_event events[MAX_EVENTS];struct epoll_event ev;int socket_fd = socket(AF_INET, SOCK_STREAM, 0);// 配置socket_fd为非阻塞模式fcntl(socket_fd, F_SETFL, O_NONBLOCK);ev.events = EPOLLIN;ev.data.fd = socket_fd;epoll_ctl(epoll_fd, EPOLL_CTL_ADD, socket_fd, &ev);while (1) {int n = epoll_wait(epoll_fd, events, MAX_EVENTS, -1);for (int i = 0; i < n; i++) {if (events[i].data.fd == socket_fd) {// 处理网络数据包}}}close(epoll_fd);close(socket_fd);return 0;
}

批量处理

将多个网络数据包合并成一批进行处理，可以减少系统调用的次数，提高处理效率。例如，在处理TCP连接时，可以将多个ACK包合并成一个响应包发送出去。

网络IO极速优化

场景描述

假设有一个高性能计算集群，每个节点配备多核处理器和大容量内存，节点之间通过高速网络互连。集群中的节点需要处理大量的网络数据包，并进行实时计算。

优化步骤

步骤一：确定网络设备的NUMA节点

使用以下命令查看网络设备的NUMA节点：

cat /sys/class/net/eth0/device/numa_node

假设输出为0，表示eth0网卡属于NUMA节点0。

步骤二：绑定进程到特定节点

将处理网络数据包的进程绑定到NUMA节点0上：

numactl --cpunodebind=0 --membind=0 ./network_processing_app

步骤三：启用多队列网卡和RSS

配置网卡的多队列和RSS功能：

ethtool -L eth0 combined 8
echo f - > /sys/class/net/eth0/queues/rx-0/rps_cpus
echo f - > /sys/class/net/eth0/queues/rx-1/rps_cpus
# 重复上述命令，为所有接收队列配置rps_cpus

步骤四：优化中断处理

将中断绑定到特定的CPU核心上：

echo 1 > /proc/irq/X/smp_affinity

其中X是网卡的中断号，1表示将中断绑定到CPU核心0上。

步骤五：应用层优化

在应用程序中使用非阻塞IO模型和IO多路复用技术。例如，在C语言中使用epoll来监听多个网络连接：

#include <sys/epoll.h>
#include <unistd.h>
#include <fcntl.h>int main() {int epoll_fd = epoll_create1(0);struct epoll_event events[MAX_EVENTS];struct epoll_event ev;int socket_fd = socket(AF_INET, SOCK_STREAM, 0);// 配置socket_fd为非阻塞模式fcntl(socket_fd, F_SETFL, O_NONBLOCK);ev.events = EPOLLIN;ev.data.fd = socket_fd;epoll_ctl(epoll_fd, EPOLL_CTL_ADD, socket_fd, &ev);while (1) {int n = epoll_wait(epoll_fd, events, MAX_EVENTS, -1);for (int i = 0; i < n; i++) {if (events[i].data.fd == socket_fd) {// 处理网络数据包}}}close(epoll_fd);close(socket_fd);return 0;
}

通过上述优化步骤，可以显著提高NUMA架构在极速网络IO场景下的性能。内存亲和性优化减少了跨节点内存访问的延迟，CPU资源优化提高了处理器利用率，网络数据包处理优化和应用层优化则进一步提升了系统的整体性能。

打个结

NUMA架构通过划分物理内存为多个节点，并允许每个节点内的CPU核心高效访问本地内存，从而解决了SMP架构下多核处理器扩展带来的内存访问瓶颈。在极速网络IO场景下，通过内存亲和性优化、CPU资源优化、网络数据包处理优化和应用层优化等策略，可以显著提高NUMA架构的性能。这些优化策略不仅适用于高性能计算集群，也适用于需要处理大量网络数据包的任何场景。通过合理的配置和优化，NUMA架构能够充分发挥多核处理器的优势，提高系统的整体性能和可扩展性。

NUMA架构及在极速网络IO场景下的优化实践

NUMA技术原理 NUMA架构概述随着多核CPU的普及，传统的对称多处理器（SMP）架构逐渐暴露出性能瓶颈。为了应对这一问题，非一致性内存访问（NUMA, Non-Uniform Memory Access）架构应运而生。NUMA架构是一种内存…...

编程日记 2024/11/28 20:12:30

Brain.js 用于浏览器的 GPU 加速神经网络

Brain.js 是一个强大的 JavaScript 库，它允许开发者在浏览器和 Node.js 环境中构建和训练神经网络。这个库的目的是简化机器学习模型的集成过程，使得即使是没有深厚机器学习背景的开发者也能快速上手。概述 Brain.js 提供了易于使用的 API&#xff…...

编程日记 2024/11/28 20:10:28

Linux——用户级缓存区及模拟实现fopen、fweite、fclose

linux基础io重定向-CSDN博客文章目录目录文章目录什么是缓冲区为什么要有缓冲区二、编写自己的fopen、fwrite、fclose 1.引入函数 2、引入FILE 3.模拟封装 1、fopen 2、fwrite 3、fclose 4、fflush 总结前言用快递站讲述缓冲区收件区（类比输…...

编程日记 2024/11/28 20:04:23

视觉感知与处理：解密计算机视觉的未来

文章目录前言1. 计算机视觉的概述2. 计算机视觉的应用3. 运动感知与光流4. 人类视觉感知4.1 大脑中的视觉处理4.2 视觉缺陷与对比4.3 分辨率4.4 视觉错觉5. 图像采集与处理6. 图像处理流程7. 二值图像处理与分割8. 3D 机器视觉系统8.1 主动3D视觉8.2 立体视觉9. 商业机器视觉系…...

编程日记 2024/11/28 20:03:22

【大数据学习 | Spark-Core】广播变量和累加器

1. 共享变量 Spark两种共享变量：广播变量（broadcast variable）与累加器（accumulator）。累加器用来对信息进行聚合，相当于mapreduce中的counter；而广播变量用来高效分发较大的对象&#xff0c…...

编程日记 2024/11/28 20:01:20

postgresql按照年月日统计历史数据

1.按照日 SELECT a.time,COALESCE(b.counts,0) as counts from ( SELECT to_char ( b, YYYY-MM-DD ) AS time FROM generate_series ( to_timestamp ( 2024-06-01, YYYY-MM-DD hh24:mi:ss ), to_timestamp ( 2024-06-30, YYYY-MM-DD hh24:mi:ss ), 1 days ) AS b GROUP BY tim…...

编程日记 2024/11/28 19:59:18

pywin32库 -- 读取word文档中的图形

文章目录前置操作解析body中的图形解析页眉中的图形前置操作基于pywin32打开、关闭word应用程序； import pythoncom from win32com.client import Dispatch, GetActiveObjectdef get_word_instance():""" 获取word进程实例"""py…...

编程日记 2024/11/28 19:58:17

GitLab使用示例

以下是从新建分支开始，配置 GitLab CI/CD 的完整详细流程，涵盖每个步骤、配置文件路径和具体示例。 1. 新建分支并克隆项目 1.1 在 GitLab 上创建新分支登录 GitLab，进入目标项目页面。依次点击 Repository > Branches。点击右上角 Ne…...

编程日记 2024/11/28 19:56:16

uniapp echarts tooltip formation 不识别html

需求： echarts 的tooltip 的域名太长，导致超出屏幕想要让他换行思路一： 用formation自定义样式实现换行但是： uniapp 生成微信小程序， echart种的tooltip 的formation 识别不了html ，自定义样式没办…...

编程日记 2024/11/28 19:55:15

3D扫描对文博行业有哪些影响？

三维扫描技术对文博行业产生了深远的影响，主要体现在以下几个方面： 一、高精度建模与数字化保护三维扫描技术通过高精度扫描设备，能够捕捉到文物的每一个细节，包括形状、纹理、颜色等，从而生成逼真的3D模型。这些模…...

编程日记 2024/11/28 19:53:13

面试（十一）

目录一.IO多路复用二.为什么有IO多路复用机制? 三.IO多路复用的三种实现方式 3.1 select select 函数接口 select 使用示例 select 缺点 3.2 poll poll函数接口 poll使用示例 poll缺点 3.3 epoll epoll函数接口 epoll使用示例 epoll缺点四. 进程和线程的区别…...

编程日记 2024/11/28 19:52:12

React-useState的使用

useState 是 React 提供的一个 Hook，允许你在函数组件中添加和管理状态（state）。在类组件中，状态管理通常是通过 this.state 和 this.setState 来实现的，而在函数组件中，useState 提供了类似的功能。基本…...

编程日记 2024/11/28 19:51:11

设计模式之破环单例模式和阻止破坏

目录 1. 序列化和反序列化2. 反射这里单例模式就不多说了 23种设计模式之单例模式 1. 序列化和反序列化这里用饿汉式来做例子 LazySingleton import java.io.Serializable;public class LazySingleton implements Serializable {private static LazySingleton lazySinglet…...

编程日记 2024/11/28 19:50:10

11.19c++面向对象+单例模式

编写如下类: class File{ FILE* fp }; 1:构造函数，打开一个指定的文件 2:write函数向文件中写入数据 3：read函数，从文件中读取数据，以string类型返回代码实现： #include <iostream>using namespace std;class…...

编程日记 2024/11/28 19:48:07

一文了解TensorFlow是什么

TensorFlow是一个开源的机器学习框架，由Google开发并维护。它提供了一个灵活且高效的环境，用于构建和训练各种机器学习模型。 TensorFlow的基本概念包括： 张量（Tensor）：TensorFlow中的核心数据结构&#x…...

编程日记 2024/11/28 19:47:06

如何做好一份技术文档?

打造出色技术文档的艺术在当今技术驱动的世界中，技术文档扮演着至关重要的角色。它不仅是工程师和开发人员之间交流的桥梁，更是产品和技术成功的隐形推手。一份优秀的技术文档宛如一张精准的航海图，能够引导读者穿越技术的迷雾，…...

编程日记 2024/11/28 19:45:02

Linux和Ubuntu的关系

Linux和Ubuntu的关系： 1. Linux本身是内核，Ubuntu系统是基于Linux内核的操作系统。 2. Linux内核操作系统的构成： 内核、shell、文件系统、应用程序 -应用程序：文本编辑器等 -文件系统：文件存放在存储设备上的组织方…...

编程日记 2024/11/28 19:38:56

软件工程之静态建模

静态模型：有助于设计包、类名、属性和方法特征标记（但不是方法体）的定义，例如UML类图。用例的关系： 扩展关系： 扩展关系允许一个用例（可选）扩展另一个用例（基用例&…...

编程日记 2024/11/28 19:35:53

PICO VR串流调试Unity程序

在平时写Unity的VR程序的时候，需要调试自己写的代码，但是有的时候会发现场景过于复杂，不是HMD一体机能运行的，或者为了能够更方便的调试，不需要每次都将程序部署到眼睛里，这样非常浪费时间，对于…...

编程日记 2024/11/28 19:33:51

自媒体图文视频自动生成软件｜03｜页面和结构介绍

代码获取方式在文本末尾🔚 *代码获取方式在文本末尾🔚 *代码获取方式在文本末尾🔚 *代码获取方式在文本末尾🔚 视频图片生成器一个基于 Python 和 Web 的工具，用于生成带有文字和语音的视频以及图片。支持多种尺寸、…...

编程日记 2024/11/28 19:27:45

【Docker】在Ubuntu22.04上安装Docker

目录一.Docker版本二.在Ubuntu22.04上安装Docker-CE 2.1.卸载旧版本（如果有的话） 2.2.配置docker下载源 2.3.安装Docker-CE 2.4.实战经验 2.4.1.Docker镜像源修改 2.4.2.Docker 目录修改一.Docker版本在 Docker 的发展与演进过程中&#xf…...

编程新知 2026/4/6 6:41:27

Ostrakon-VL-8B快速体验：上传图片让AI识别所有文字内容

Ostrakon-VL-8B快速体验：上传图片让AI识别所有文字内容你是不是经常遇到需要从图片中提取文字的情况？无论是店铺招牌、商品标签还是文档截图，手动输入既费时又容易出错。今天，我将带你快速体验Ostrakon-VL-8B这个强大的多模态视…...

编程新知 2026/4/6 5:28:18

PCIe新手必看：3层体系结构详解（附实战避坑指南）

PCIe三层体系结构深度解析：从原理到实战避坑指南刚接触PCIe总线的工程师们，常常会被其复杂的协议栈和晦涩的专业术语所困扰。作为现代计算机系统中至关重要的高速串行总线标准，PCIe凭借其分层架构设计，在保证兼容性的同时实现了性…...

编程新知 2026/4/6 4:51:45

2026横向对比5款H5工具，产品介绍页制作，哪款出片更高级？

制作产品介绍H5时，很多人都会陷入两难：要么模板廉价缺乏质感，撑不起产品调性；要么设计复杂、操作繁琐，新手难以驾驭；要么高级效果需额外付费，性价比大打折扣。产品介绍页的高级感，直…...

编程新知 2026/4/6 4:08:05

Decision Transformer与行为克隆对比分析：何时选择哪种方法

Decision Transformer与行为克隆对比分析：何时选择哪种方法【免费下载链接】decision-transformer Official codebase for Decision Transformer: Reinforcement Learning via Sequence Modeling. 项目地址: https://gitcode.com/gh_mirrors/de/decision-transfo…...

编程新知 2026/4/6 3:39:11

ShareList插件开发全攻略：从零开始打造专属网盘工具

ShareList插件开发全攻略：从零开始打造专属网盘工具【免费下载链接】sharelist 快速分享 GoogleDrive OneDrive 项目地址: https://gitcode.com/gh_mirrors/sh/sharelist ShareList是一款强大的开源网盘工具，支持快速挂载Google Drive、OneDriv…...

编程新知 2026/4/6 3:39:04

如何用嘎嘎降AI处理文献综述部分：综述专项降AI教程

如何用嘎嘎降AI处理文献综述部分：综述专项降AI教程这篇教程来自实操经验。帮三个同学处理过论文AI率，加上自己的，前后操作了十几次。把流程总结成教程，尽量详细。核心工具推荐嘎嘎降AI（www.aigcleaner.com&#xf…...

编程新知 2026/4/5 23:23:39

论文AI率80%+的紧急处理方案，答辩前用得上

距离答辩3天，AI率检出80%——这是最糟糕的时间点碰到最糟糕的问题。不要慌，这个情况有成熟的处理方案，我见过很多人在这个时间节点成功降下来的。下面是紧急情况下的处理方法，按照时间紧迫程度分了几个场景。先做一个判断&…...

编程新知 2026/4/5 22:26:58

PostgreSQL 二进制安装全流程详解

1. 为什么选择二进制安装PostgreSQL 第一次接触PostgreSQL时，我也纠结过到底该用哪种安装方式。源码编译、包管理器、二进制安装各有优劣，但实测下来，二进制安装是最适合新手的方案。它既不像源码编译那样需要处理复杂的依赖关系，…...

编程新知 2026/4/5 21:37:23

终极指南：用XUnity自动翻译器让外文游戏秒变中文

终极指南：用XUnity自动翻译器让外文游戏秒变中文【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 还在为看不懂外文游戏而烦恼吗？XUnity自动翻译器是你的完美解决方案！这…...

编程新知 2026/4/5 21:01:01

NUMA技术原理

NUMA架构概述

NUMA架构的结构

NUMA架构的特点

NUMA架构的优势

NUMA架构与多核CPU的关系

NUMA架构在极速网络IO场景下的优化策略

1. 内存亲和性优化

步骤一：确定网络设备的NUMA节点

步骤二：绑定进程到特定节点

步骤三：验证设置

2. CPU资源优化

合理分配CPU核心

启用超线程技术

避免过载

3. 网络数据包处理优化

使用多队列网卡

启用RSS（Receive Side Scaling）

优化中断处理

4. 应用层优化

使用非阻塞IO模型

IO多路复用

批量处理

网络IO极速优化

场景描述

优化步骤

步骤一：确定网络设备的NUMA节点

步骤二：绑定进程到特定节点

步骤三：启用多队列网卡和RSS

步骤四：优化中断处理

步骤五：应用层优化

打个结

相关文章：