当前位置: 首页 > news >正文

反思 GTC 和 OFC 2024:没有一刀切的方法,但上市时间是关键!

在GTC 2024期间,英伟达宣布了最新的Blackwell B200张量核心GPU,旨在为万亿参数的AI大型语言模型提供支持。Blackwell B200需要先进的800Gbps网络,完全符合在AI工作负载的AI网络报告中概述的预测。随着人工智能工作负载的流量预计每两年增长10倍,这些人工智能工作负载预计将超过传统前端网络至少两个速度升级周期。

虽然在OFC上讨论了许多关于跨数据中心应用的主题和创新解决方案,以及在同一领域内扩展加速器数量的计算互连,但本篇文章将主要关注数据中心内的应用。具体来说,它将专注于扩展连接大型人工智能集群中各种加速节点所需的网络,并使用1000个加速器。这个网络在业界通常被称为“人工智能后端网络”(还提到;由一些供应商提供;作为东西向流量的网络)。以下是展会上探讨的一些主题和解决方案:

1)线性驱动可插拔光学vs线性接收光学vs共封装光学

可插拔光学器件预计将在系统级的功耗中占越来越大的比例。随着云服务提供商构建以高速光学扩散为特征的下一代人工智能网络,这个问题将进一步放大。

在OFC 2023上,线性驱动可插拔光学(LPOs)的引入通过去除DSP来实现显著的成本和功耗节约,引发了一系列的测试活动。快进到OFC 2024,我们见证了近20场演示。活动期间的对话显示了全行业对集成到最新51.2Tbps网络交换芯片中的高质量100G SerDes的热情,许多人渴望利用这一进步,能够从光可插拔模块中去除DSP。

然而,尽管令人兴奋,但超大规模企业的犹豫表明,LPOs可能还没有做好大规模采用的准备。采访强调,超大规模企业不愿承担LPOs的资格认证和潜在失败的责任。相反,他们更倾向于让转换供应商来承担这些责任。

在此期间,预计51.2Tbps网络芯片的早期部署将继续利用可插拔光学,至少到明年年中。然而,如果LPOs 能够展示大规模的安全部署,同时为超大规模企业提供显著的功耗节省——使他们能够在每个机架上部署更多的加速器——那么采用LPOs 的诱惑可能是不可抗拒的。最终,决定取决于LPOs 能否兑现这些承诺。

此外,半定时线性光学(HALO),也被称为线性接收光学(LROs)在展会上进行了讨论。LRO仅在发送端集成DSP芯片(而不是在LPOs的情况下完全移除它)。虽然LPOs在100G-PAM4 SerDes下可能是可行的,但在200G-PAM4 SerDes下可能变得具有挑战性,这时可能需要LROs。

与此同时,协同封装光学(CPOs)仍处于开发阶段,Broadcom等大型行业参与者正在展示该技术的持续发展和进步。虽然我们相信目前的LPO和LRO解决方案肯定会像CPOs一样有更快的上市时间,但后者最终可能在未来的某个时候成为能够实现更高速度的唯一解决方案。

在结束本节之前,请不要忘记,在可能的情况下,铜将是比上面讨论的所有光连接选项更好的选择。简而言之,尽可能使用铜,必要时使用光学。有趣的是,液体冷却可以促进机架内加速器的致密化,从而增加铜的使用,以连接同一机架内的各种加速器节点。最近在GTC上发布的NVIDIA GB200 NVL72完美地说明了这一趋势。

2)光电路开关

OFC 2024带来了一些有趣的光学电路开关(OCS)相关公告。OCS可以带来许多好处,包括高带宽和低网络延迟,以及显著的资本支出节省。这是因为OCS开关可以显著减少网络中所需的电气开关数量,从而消除了与电气开关相关的昂贵的光-电-光转换。此外,与电气开关不同,OCS开关与速度无关,当服务器采用下一代光收发器时,不需要升级。

然而,OCS是一项新技术,到目前为止,只有经过多年开发的谷歌能够在其数据中心网络中大规模部署OCS。此外,OCS交换机可能需要改变光纤的安装底座。因此,我们仍在观察,除了谷歌之外,是否有其他云服务提供商计划效仿,在网络中采用OCS交换机。

3) 3.2 Tbps的路径

在OFC 2023上,推出了许多基于200G / lambda的1.6Tbps光学元件和收发器。在OFC 2024上,我们见证了这种1.6 Tbps光学器件的进一步技术演示。虽然我们预计到2025/2026年才能实现1.6Tbps的批量出货量,但业界已经开始努力探索实现3.2 Tbps的各种途径和选择。

考虑到从100G-PAM4电子通道速度过渡到200G-PAM4所遇到的复杂性,最初的3.2 Tbps解决方案可能在OSFP-XD外形因素中使用16条200G-PAM4通道,而不是8条400G-PAMx通道。值得注意的是,OSFP-XD最初是在两年前的OFC 2022上进行探索和演示的,由于人工智能集群部署的紧迫性,它可能会重新投入使用。与1.6Tbps相比,OSFP-XD外形尺寸的3.2Tbps解决方案提供了更高的面板密度和成本节约。最终,业界有望找到一种基于8通道400G-PAMx SerDes实现3.2 Tbps的方法,尽管可能需要一些时间才能实现这一目标。

总之,OFC 2024展示了许多潜在的解决方案,旨在解决共同的挑战:成本、功率和速度。我们预计不同的超大规模厂商将做出不同的选择,从而导致市场多样化。然而,关键的考虑因素之一是上市时间。值得注意的是,AI后端网络的更新周期通常在18到24个月左右,与用于连接通用服务器的传统前端网络的5到6年相比,这要短得多。

原文转自:Reflecting on GTC and OFC 2024: No One-Size-Fits-All but Time to Market is Key! - Dell'Oro Group (delloro.com)

相关文章:

反思 GTC 和 OFC 2024:没有一刀切的方法,但上市时间是关键!

在GTC 2024期间,英伟达宣布了最新的Blackwell B200张量核心GPU,旨在为万亿参数的AI大型语言模型提供支持。Blackwell B200需要先进的800Gbps网络,完全符合在AI工作负载的AI网络报告中概述的预测。随着人工智能工作负载的流量预计每两年增长10…...

速盾:bgp 静态 cdn

BGP(边界网关协议)是一种用于在互联网中交换路由信息的协议,它允许不同自治系统(AS)之间的路由器进行通信和交换路由信息。CDN(内容分发网络)是一种通过将内容分散放置在全球各地的服务器上&…...

union all 以及标量子查询执行计划

SELECT 1, (SELECT ID1 FROM TE WHERE IDA.ID2) FROM .TA A WHERE COLA X UNION ALL SELECT 1, (SELECT ID2 FROM TD WHERE IDA.ID1) FROM .TB A WHERE COLA X UNION ALL SELECT 1,COL2 AS PARENT_UUID FROM .TC a WHERE COLA X 三个union all 看着像是5个table joi…...

上位机图像处理和嵌入式模块部署(f103 mcu和Qt上位机联动)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 之前我们写过一篇文章,上面说的是如何利用串口对mcu进行控制,即如果利用串口实现mcu led灯的点亮和熄灭。输入1的时候&…...

TiKV学习5:TiDB SQL执行流程

目录 1. DML语句读流程概要 2. DML语句写流程概要 3. DDL 流程概要 4. SQL的Parse和Compile 5. 读取的执行 6. 写入的执行 7. DDL的执行 8. 小结 1. DML语句读流程概要 TiDB Server接收sql并处理,TiKV负责持久化数据,PD提供TSO和Region的数据字典…...

Unity 自定义编辑器根据枚举值显示变量

public class Test : MonoBehaviour {[HideInInspector][Header("数量")][SerializeField]public int num;[Header("分布类型")][SerializeField]public DistributionType distType;[HideInInspector][Header("位置")][SerializeField]public Li…...

linux下 搭建Llama3

安装软件: Ollama,官方网站:https://ollama.com/ 可以再下载win、mac和linux版本 linux安装命令为:curl -fsSL https://ollama.com/install.sh | sh 由于我的机器是linux不联网机器,网上没找到下载离线方式&#xff0c…...

【蓝桥杯——物联网设计与开发】拓展模块2 - 电位器模块

一、电位器模块 (1)资源介绍 🔅原理图 蓝桥杯物联网竞赛实训平台提供了一个拓展接口 CN2,所有拓展模块均可直接安装在 Lora 终端上使用; 图1 拓展接口 电位器模块电路原理图如下所示: 图2 …...

Jtti:租用的php服务器运行异常是什么原因导致的?

PHP服务器运行异常可能由多种原因引起。以下是一些常见问题及其相应的解决方案: 1. 服务器资源不足 原因: CPU、内存或磁盘空间不足,导致服务器性能下降。 解决方案: 检查系统资源:使用以下命令检查CPU、内存和磁盘使用…...

恒创科技:无法与服务器建立安全连接怎么解决?

在使用互联网服务时,有时会出现无法与服务器建立安全连接的问题,此错误消息通常出现在尝试访问需要安全连接的网站(例如使用 HTTPS 的网站)时,这可能是由于多种原因造成的,以下是一些常见的解决方法,帮助你解决问题。 …...

【面试】介绍一下HotSpot虚拟机

目录 1. 说明2. 起源与发展3. 技术特点3.1 热点代码探测技术3.2 内存管理3.3 垃圾收集器3.4 并发和多线程支持3.5 指令重排优化 4. 执行模式与性能 1. 说明 1.HotSpot虚拟机是一款由Oracle JDK和OpenJDK广泛使用的Java虚拟机(JVM)。2.HotSpot虚拟机凭借…...

【测试】linux快捷指令工具cxtool

简介 登录linux时,我们经常需要重复输入一些指令. 这个工具可以把这些指令预置,需要的时候鼠标一点,会自动按预置的字符敲击键盘,敲击出指令. 下载地址 https://download.csdn.net/download/bandaoyu/89379371 使用方法 1,编辑配置文件,自定义自己的快捷指令。 2…...

css属性值的计算过程

1.首先抛出一个问题&#xff0c;为什么最终’a’标签渲染的颜色是蓝色。 <div><a>click</a> </div>div {color: red }为什么a标签没有继承父元素的color属性&#xff1f; 2.先抛出一个结论&#xff1a;每一个元素必须拥有全部css属性并且有值浏览器才…...

看到大厂工时爆料,我沉默了。。

大厂工时爆料 今天逛脉脉的时候&#xff0c;看到一篇名为「一人一句&#xff0c;大厂工时爆料」的帖子&#xff1a; 点开之后&#xff0c;我沉默了 ... 出来爆料的基本上都是 10 小时。 好奇心之下&#xff0c;我搜索了一下去年很热的排行榜&#xff1a; 2023 年最新互联网公司…...

最大回撤概念与计算

一、最大回撤&#xff0c;是指的最大下跌的值&#xff1a; 1、即所有下跌趋势中&#xff0c;净值最低的点&#xff0c;与历史净值最高点直接的差值。 2、最大回撤取绝对值显示 二、如果有时间限制&#xff0c;则计算对应时间段内的最大回撤。 示意图如下&#xff1a; 三、举…...

K8s Ingress 详解

文章目录 K8s Ingress 详解Ingress 资源清单Ingress 基于URL 实现路由Ingress 基于名称虚拟主机Ingress 实现HTTPS创建TLS 证书创建Secrets配置ingress Ingress RewriteIngress 灰度发布Ingress 配置认证 K8s Ingress 详解 Ingress 资源清单 apiVersion: networking.k8s.io/v…...

大模型的崛起与未来展望

人工智能技术的飞速发展,令人不得不感叹科技的进步究竟有多么惊人。近年来兴起的大模型,在多个领域都展现出了令人瞩目的能力,引发了业界和大众的广泛关注。从自然语言处理到计算机视觉,从医疗诊断到金融分析,大模型都在不断刷新人类的认知边界。 但我们同时也要看到,大模型目…...

让WSL内核使用BBR拥塞控制算法

使用git命令从Linux内核的Git仓库中获取源代码,$ git clone --depth 1 https://github.com/microsoft/WSL2-Linux-Kernel.git,找到对应的内核版本$ git log --grep="5.15.146.1-microsoft-standard-WSL2",回退到本机安装的内核版本$ git checkout <commit-id&…...

小程序内的分包与数据共享

一:数据共享 小程序内的数据共享和vue当中不一样,vue当中的vue实例可以使得所有的组件都能this.store 但是小程序它只有page对象,和组件实例对象.对于vue而言,vue实例可以使得添加的组件都有. 但是page对象页面对象,不能使得页面内部有.只能使得这个页面内能访问.vue实例,会…...

WordPress子比主题美化-首页动态的图片展示

WordPress子比主题首页动态的图片展示 WordPress子比主题首页添加动态的图片展示&#xff0c;其他程序也可以用&#xff0c;复制代码到相应位置即可&#xff0c;也可作为指定分类&#xff0c;重点内容等&#xff0c;可以适合各个场景&#xff0c;需要的自取。 图片展示: 教程…...

后进先出(LIFO)详解

LIFO 是 Last In, First Out 的缩写&#xff0c;中文译为后进先出。这是一种数据结构的工作原则&#xff0c;类似于一摞盘子或一叠书本&#xff1a; 最后放进去的元素最先出来 -想象往筒状容器里放盘子&#xff1a; &#xff08;1&#xff09;你放进的最后一个盘子&#xff08…...

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…...

CTF show Web 红包题第六弹

提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框&#xff0c;很难让人不联想到SQL注入&#xff0c;但提示都说了不是SQL注入&#xff0c;所以就不往这方面想了 ​ 先查看一下网页源码&#xff0c;发现一段JavaScript代码&#xff0c;有一个关键类ctfs…...

Zustand 状态管理库:极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库&#xff0c;特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。 核心优势对比 基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

day52 ResNet18 CBAM

在深度学习的旅程中&#xff0c;我们不断探索如何提升模型的性能。今天&#xff0c;我将分享我在 ResNet18 模型中插入 CBAM&#xff08;Convolutional Block Attention Module&#xff09;模块&#xff0c;并采用分阶段微调策略的实践过程。通过这个过程&#xff0c;我不仅提升…...

中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试

作者&#xff1a;Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位&#xff1a;中南大学地球科学与信息物理学院论文标题&#xff1a;BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接&#xff1a;https://arxiv.…...

使用 SymPy 进行向量和矩阵的高级操作

在科学计算和工程领域&#xff0c;向量和矩阵操作是解决问题的核心技能之一。Python 的 SymPy 库提供了强大的符号计算功能&#xff0c;能够高效地处理向量和矩阵的各种操作。本文将深入探讨如何使用 SymPy 进行向量和矩阵的创建、合并以及维度拓展等操作&#xff0c;并通过具体…...

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件&#xff0c;所以得把软件用docker打包起来&#xff0c;大部分功能都没问题&#xff0c;出了一个奇怪的事情。同样的代码&#xff0c;在本机上用vscode可以运行起来&#xff0c;但是打包之后在docker里出现了问题。使用的是dialog组件&#xff0c;…...

Java线上CPU飙高问题排查全指南

一、引言 在Java应用的线上运行环境中&#xff0c;CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时&#xff0c;通常会导致应用响应缓慢&#xff0c;甚至服务不可用&#xff0c;严重影响用户体验和业务运行。因此&#xff0c;掌握一套科学有效的CPU飙高问题排查方法&…...

听写流程自动化实践,轻量级教育辅助

随着智能教育工具的发展&#xff0c;越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式&#xff0c;也迎来了更高效的解决方案。 这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建&#xff0c;…...