客户案例:高性能、大规模、高可靠的AIGC承载网络
客户是一家AIGC领域的公司,他们通过构建一套完整的内容生产系统,革新内容创作过程,让用户以更低成本完成内容创作。
客户网络需求汇总
RoCE的计算网络 | RoCE存储网络 |
---|---|
1.不少于600端口200G以太网接入端口,未来可扩容至至少1280端口 | 1.不少于100端口200G以太网接入端口,未来可扩容至至少240端口 |
2. 全网无收敛(1:1收敛比),全线速交换 | 2. 带宽收敛比不大于3:1 |
3. 支持RoCE实现无损以太网 | 3. 支持 RoCE 实现无损以太网 |
整网方案设计的思路
高性能
AIGC承载网络需要具备高宽带的特性,以支持快速的数据传输和处理。生成内容可能涉及大规模的文本、图像或视频数据,因此需要具备高带宽的网络连接,以便快速传输数据到计算资源节点进行处理;此外,AIGC承载网络需要实现低时延的要求,以确保生成内容的实时性和响应性。在用户上传任务或请求后,网络需要迅速响应并进行任务分配或资源调度。
大规模
AIGC承载网络需要能够处理大量的用户请求和任务,并同时支持多个用户的并发访问。因此,网络架构需要具备高度的可扩展性和负载均衡能力。例如,采用分布式计算和分布式存储技术,使得网络可以横向扩展,自动调节资源分配以应对不断增长的用户需求。
高可用
AIGC承载网络需要具备高可用性,以确保服务的连续性和稳定性。由于AIGC是基于人工智能技术的,其生成过程可能需要较长的时间和大量的计算资源。因此,网络需要具备容错机制和故障恢复策略,以应对硬件故障、网络中断或其他意外情况。
整体方案架构
计算网络设计方案一:整网 1:1 无收敛
不考虑GPU的8个接口的接入方式,8个接口接入1台或多台ToR
- 交换机 10 Leaf + 20 ToR= 30 台,提供640个接入端口(20*32=640),每台GPU服务器8端口,可以最大可接入GPU服务器 80台
- 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧600条,合计1200条
方案一的扩展性
- 基于该架构,最多可以接入64台ToR,最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求
计算网络设计方案二:整网 1:1 无收敛
考虑GPU的8个接口的接入方式,8个接口接入到8台Leaf,每8台Leaf作为一个分组
- 交换机 13 Leaf + 24 ToR = 37 台,按600个接入端口(75台GPU服务器),每组8个ToR接入25台GPU服务器,3组ToR接入75台
- 每组ToR接入25台GPU服务器,下行接入带宽为200*200GE,因此,上行也需要至少是200*200GE带宽,每台ToR到每台Leaf为2条200G,总上行带宽为2*13*8*200GE,满足1:1收敛要求
- 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧600条,Fabric侧624条,合计1224条
方案二的扩展性
- 基于该架构,最多可以接入8组ToR ,每组8个ToR接入32台GPU服务器,8组ToR接入256台
- 最大可以扩展到2048个200G接口接入,满足1280接口接入的扩展性要求
存储网络设计方案:整网 3:1 收敛
- 交换机 2 Leaf + 3 ToR = 5 台,提供最大144个接入端口(满足100个接入需求)
- 如果不考虑Leaf高可靠部署,也可以单Leaf接入
- 接入侧和Fabric内部互联均可以使用200G的AOC(含两端的200G光模块),其中接入侧100条,Fabric侧36条,合计136条
存储网络扩展性
- 交换机 2 Leaf + 5 ToR = 7 台,提供最大240个接入端口(满足240个接入的扩展需求)
方案价值与优势
⇘ 超低TCO、超高性价比
相较于IB方案,大幅度降低用户的网络TCO,同时确保超高性能
⇘ 横向平滑扩容、1:1收敛无阻塞
无收敛的网络设计确保无阻塞的大容量网络,按需横向扩展
⇘ 整网RoCEv2
基于CEE/DCB能力,提供可与IB媲美的性能和同样无损的网络服务
⇘ 开放网络操作系统
网络操作系统AsterNOS,SONiC企业级发行版,支持灵活的功能扩展、在线升级
⇘ 无缝对接云管
AsterNOS 利用简单易用的REST API,可轻松让第三方的云平台/控制器快速纳管
⇘ 专家级服务
专业、全面、可靠的研发、方案与服务团队,为客户提供小时级的快速响应服务
关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。
相关文章:
客户案例:高性能、大规模、高可靠的AIGC承载网络
客户是一家AIGC领域的公司,他们通过构建一套完整的内容生产系统,革新内容创作过程,让用户以更低成本完成内容创作。 客户网络需求汇总 RoCE的计算网络RoCE存储网络1.不少于600端口200G以太网接入端口,未来可扩容至至少1280端口1.…...
Flutter性能揭秘之RepaintBoundary
作者:xuyisheng Flutter会在屏幕上绘制Widget。如果一个Widget的内容需要更新,那就只能重绘了。尽管如此,Flutter同样会重新绘制一些Widget,而这些Widget的内容仍有部分未被改变。这可能会影响应用程序的执行性能,有时…...
29.Netty源码之服务端启动:创建EventLoopSelector流程
highlight: arduino-light 源码篇:从 Linux 出发深入剖析服务端启动流程 通过前几章课程的学习,我们已经对 Netty 的技术思想和基本原理有了初步的认识,从今天这节课开始我们将正式进入 Netty 核心源码学习的课程。希望能够通过源码解析的方式…...
Kotllin实现ArrayList的基本功能
前言 上次面试时,手写ArrayList竟然翻车,忘了里面的扩容与缩容的条件,再次实现一次,加深印象 源码讲了什么 实现了List列表和RandomAccess随机访问接口List具有增删改查功能,RandomAccess支持下标访问内部是一个扩容…...
C++的初步介绍,以及C++与C的区别
C和C的区别 C又称C plus plus,且C语言是对C语言的扩充,几乎支持所有的C语言语法;C语言:面向过程的语言(注重问题的解决方法和算法)C:面向对象的语言 (求解的方法)面向对…...
JDK 核心jar之 rt.jar
一、JDK目录展示 二、rt.jar 简介 2.1.JAR释义 在软件领域,JAR文件(Java归档,英语:Java Archive)是一种软件包文件格式,通常用于聚合大量的Java类文件、相关的元数据和资源(文本、图片等&…...
el-form表单验证:只在点击保存时校验(包含select、checkbox、radio)
1、input类型 input类型 在el-input里加入:validate-event"false" <el-form-item label"活动名称" prop"name"><el-input v-model"ruleForm.name" :validate-event"false"></el-input> </el-form-i…...
Golang基本语法(上)
1. 变量与常量 Golang 中的标识符与关键字 标识符 Go语言中标识符由字母数字和_(下划线)组成,并且只能以字母和_开头。 举几个例子:abc, _, _123, a123。 关键字 关键字和保留字都不建议用作变量名: Go语言中有25个关键字。 此…...
jenkins使用
安装插件 maven publish over ssh publish over ssh 会将打包后的jar包,通过ssh推送到指定的服务器上,,在jenkins中设置,推送后脚本,实现自动部署jar包,, 装了这个插件之后,可以在项…...
多线程基础篇(包教包会)
文章目录 一、第一个多线程程序1.Jconsole观察线程2.线程休眠-sleep 二、创建线程三、Thread类及常见方法1. Thread 的常见构造方法2. Thread 的几个常见属性3. 启动线程 - start4. 中断线程5. 等待一个线程 四、线程状态五、线程安全问题(synchronized)(重点&#…...
Android/Java中,各种数据类型之间的互相转换,给出各种实例,附上中文注释
目录 1.字符串(String)转整数(int): 2.整数(int)转字符串(String): 3.字符串(String)转浮点数(float)&…...
机器学习知识点总结:什么是EM(最大期望值算法)
什么是EM(最大期望值算法) 在现实生活中,苹果百分百是苹果,梨百分白是梨。 生活中还有很多事物是概率分布,比如有多少人结了婚,又有多少人有工作, 如果我们想要调查人群中吸大麻者的比例呢?敏感问题很难得…...
漏洞挖掘和安全审计的技巧与策略
文章目录 漏洞挖掘:发现隐藏的弱点1. 源代码审计:2. 黑盒测试:3. 静态分析工具: 安全审计:系统的全面评估1. 渗透测试:2. 代码审计:3. 安全策略审查: 代码示例:SQL注入漏…...
[SpringBoot3]Web服务
五、Web服务 基于浏览器的B/S结构应用十分流行。SpringBoot非常适合Web应用开发,可以使用嵌入式Tomcat、Jetty、Undertow或Netty创建一个自包含的HTTP服务器。一个SpringBoot的Web应用能够自己独立运行,不依赖需要安装的Tomcat、Jetty等。SpringBoot可以…...
构建系统自动化-autoreconf
autoreconf简介 autoreconf是一个GNU Autotools工具集中的一个命令,用于自动重新生成构建系统的配置脚本和相关文件。 Autotools是一组用于自动化构建系统的工具,包括Autoconf、Automake和Libtool。它们通常用于跨平台的软件项目,以便在不同…...
Mysql之InnoDB和MyISAM的区别
InnoDB和MyISAM是MySQL数据库中两种常见的存储引擎,它们在功能和性能方面有一些明显的区别。下面是它们之间的详细解释和说明: 底层数据 存数据的时候,MyISAM是数据和索引分开存储,分为MYD和MYI 而InnoDB是数据即索引࿰…...
Unity 之 Transform.Translate 实现局部坐标系中进行平移操作的方法
文章目录 Translate 默认使用局部坐标也可以转换成世界坐标 Translate 默认使用局部坐标 在Unity中,Transform.Translate是用于在游戏对象的局部坐标系中进行平移操作的方法。这意味着它将游戏对象沿着其自身的轴进行移动,而不是世界坐标轴。这在实现物…...
PostgreSQL Error: sorry, too many clients already
Error PG的默认最大连接数是100. 如果超过100就会报错sorry, too many clients already Find show max_connections; SELECT COUNT(*) from pg_stat_activity; SELECT * FROM pg_stat_activity;Solution 提高最大连接数 ALTER SYSTEM SET max_connections 然后重启pg查看…...
Vue2(路由)
目录 一,路由原理(hash)二,路由安装和使用(vue2)三,路由跳转四,路由的传参和取值五,嵌套路由六,路由守卫最后 一,路由原理(hash&#…...
中介者模式-协调多个对象之间的交互
在深圳租房市场,有着许多的“二房东”,房主委托他们将房子租出去,而租客想要租房的话,也是和“二房东”沟通,租房期间有任何问题,找二房东解决。对于房主来说,委托给“二房东”可太省事了&#…...
Python框架【自定义过滤器、自定义数据替换过滤器 、自定义时间过滤器、选择结构、选择练习、循环结构、循环练习、导入宏方式 】(三)
👏作者简介:大家好,我是爱敲代码的小王,CSDN博客博主,Python小白 📕系列专栏:python入门到实战、Python爬虫开发、Python办公自动化、Python数据分析、Python前后端开发 📧如果文章知识点有错误…...
红黑树遍历与Redis存储
引言 在计算机科学领域,红黑树(Red-Black Tree)是一种自平衡的二叉查找树,它能在O(log n)的时间复杂度内完成插入、删除和查找操作。由于其高效性和可预测性的性能,红黑树在许多领域都得到广泛应用。本文将重点介绍红…...
前端处理图片文件的方法
在项目开发过程中,有一个需求,需要前端对上传的图片进行处理,以字符串的形式传给后端,实现效果如下: 1.上传图片的组件 在该项目中,使用了element plus组件库 <el-uploadv-model:file-list"fileL…...
「Java」《深入解析Java多线程编程利器:CompletableFuture》
《深入解析Java多线程编程利器:CompletableFuture》 一、 引言1. 对多线程编程的需求和挑战的介绍2. 介绍CompletableFuture的作用和优势 二. CompletableFuture简介1. CompletableFuture是Java中提供的一个强大的多线程编程工具2. 与传统的Thread和Runnable相比的优…...
Docker容器与虚拟化技术:容器运行时说明与比较
目录 一、理论 1.容器运行时 2.容器运行时接口 3.容器运行时层级 4.容器运行时比较 5.强隔离容器 二、问题 1.K8S为何难以实现真正的多租户 三、总结 一、理论 1.容器运行时 (1)概念 Container Runtime 是运行于 k8s 集群每个节点中ÿ…...
vue导出文件流获取附件名称并下载(在response.headers里解析filename导出)
导出文件流下载,拦截器统一处理配置 需求以往实现的方法(各自的业务层写方法)现在实现的方法(axios里拦截器统一配置处理)把文章链接复制粘贴给后端,让大佬自己赏阅。 需求 之前实现的导出都是各自的业务层…...
山东省图书馆典藏《乡村振兴战略下传统村落文化旅游设计》鲁图中大许少辉博士八一新书
山东省图书馆《乡村振兴战略下传统村落文化旅游设计》鲁图中大许少辉博士八一新书...
2023-08-19力扣每日一题-水题/位运算解法
链接: 2235. 两整数相加 题意: ab 解: ab 补一个位运算写法,进位是(a&b)<<1,不进位的计算结果为a^b 实际代码: #include<iostream> using namespace std; int sum(int num1, int n…...
Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)
Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四) 4.1 概述1)压缩的好处和坏处2)压缩原则 4.2 MR 支持的压缩编码4.3 压缩方式选择4.3.1 Gzip 压缩4.3.2 Bzip2 压缩4.3.3 Lzo 压缩4.3.4 Snappy 压缩4.3.5 压缩…...
LRU淘汰策略执行过程
1 介绍 Redis无论是惰性删除还是定期删除,都可能存在删除不尽的情况,无法删除完全,比如每次删除完过期的 key 还是超过 25%,且这些 key 再也不会被客户端访问。 这样的话,定期删除和堕性删除可能都彻底的清理掉。如果…...
介绍化工项目建设和招聘的网站/河南企业网站建设
传送门 给你串A和串B,|B| < |A| 已知串B有两种可能含义,求串A的总可能含义数 dp[i]表示串A的从头开始长度为i的串的可能意义的数目 若该长度为i的串的后缀与模式串B匹配,则该后缀可以选择替换或者不替换 dp[i] dp[i - 1] dp[i - Bl] 否…...
做一钓鱼网站吗/谷歌浏览器下载手机版最新版
GBase 8c Platform提供集群管理功能,可便捷高效地实现数据库集群的部署、外部导入、启停、同步设置、备份、恢复、扩缩容等操作。用户可以创建新集群、导入外部集群,还具有丰富的集群管理功能。 界面默认显示已部署的数据库集群配置信息。通用管理平台对…...
三好街做网站的公司/网站seo诊断
今天安装Sql Server之后,出现SQL Server只能使用Windows身份登录,不能使用sa等Sql server身份进行登录的问题是由于sql server只设置了Windows身份验证,没有设置sa登录,修改登录方式。在网上查了一下,找到了这篇文章&a…...
百度云附件 wordpress/东莞seo外包平台
关于如何架设PT请参考:NexusPHP架设PT服务站点教程 安装完成后发现可以局域网内可以做种,但是外网就不行了,查看种子下载地址列表会显示可连接性为否,查看了announce.php文件,可连接性由这段代码决定 $sockres pfsock…...
游戏咨询网站建设目标是什么/百度竞价推广是什么
在*NIX系统遭受***后,确定损失及***者的***源地址相当重要。虽然在大多数***者懂得使用曾被他们攻陷的机器作为跳板来***你的服务器可在他们发动正式***前所做的目标信息收集工作(试探性扫描)常常是从他们的工作机开始的,本篇介绍…...
wordpress 分页代码/网页制作免费网站制作
收拾行装,回到北方. 大三那年,考试一结束,来不及给家人朋友道别,到了深圳.这是一座离我家乡很远的地方,这也是一个很陌生的地方.心高气傲形容那时的我再合适不过. 从第一份工作的一个月5000元的月光,到后来一个月11k的底层.深圳用一年的时间告诉我:世界很大,你很渺小. 一年之…...