在当天的 Hot Chips 2024 大会上,英伟达公布了下一代 GPU 架构 Blackwell 的更多细节信息汉服 足交,以及当年的居品道路图。
会议时期,英伟达架构总监 Ajay Tirumala 和 Raymond Wong 对 Blackwell 平台进行了初步先容,并评释了这些本领怎么协同职责,在提高动力效果的同期为 AI 和加速策动性能提供新的尺度。
为 Blackwell 作念好准备英伟达 Blackwell 是通用策动全栈矩阵的终极惩办有策动,由多个英伟达芯片构成,包括 Blackwell GPU、Grace CPU、BlueField 数据处理单位、ConnectX 网罗接口卡、NVLink 交换机、Spectrum 以太网交换机和 Quantum InfiniBand 交换机。
它涵盖了从 CPU 和 GPU 策动,到用于互连的不同类型的网罗。这是芯片到机架和互连,而不单是是 GPU。它是有史以来单个 GPU 所领有的最强 AI 策动、内存带宽和互连带宽。通过使用高带宽接口(NV-HBI),可在两个 GPU 芯片之间提供 10TB/s 的带宽。
此外,英伟达还引入了新的 FP4 和 FP6 精度。裁汰策动精度是提高性能的一种尽人皆知的递次。通过英伟达的 Quasar 量化系统,不错找出哪些方面不错使用较低的精度,从而减少策动和存储。英伟达暗意,用于推理的 FP4 在某些情况下不错接近 BF16 性能。
NVLink 交换机芯片和 NVLink 交换机托盘(tray)旨在以更低的功耗推送大量数据。英伟达演示了 GB200 NVL72 和 NVL36。其中,NVL72 包含 36 个 Grace GPU 和 72 个 Blackwell GPU,专为万亿参数 AI 而联想。GB200 NVL 72 当作一个斡旋系统,对大谈话模子(LLM)推感性能进步高达 30 倍,开释了及时运行数万亿个参数模子的智商。
英伟达暗意,跟着 AI 模子尺寸的增多,在多个 GPU 上拆单干作负载大势所趋。而 Blackwell 浪掷宽敞,不错在一个 GPU 中处理内行模子。
临了,英伟达还展示了 2024 年至 2028 年的居品道路图。2026 年的 1.6T ConnectX-9 似乎标明了英伟达对 PCIe Gen7 的需求,因为 PCIe Gen6 x16 无法处理 1.6T 的网罗引诱。
Blackwell 的本领冲破
本年 3 月,英伟达在 GTC 2024 开发者大会上发布了新的 GPU 架构 Blackwell。Blackwell 得名于好意思国数学家 David Blackwell,是英伟达最新一代的 AI 芯片与超等策动平台。与 Grace 数据中心 CPU、新一代网罗芯片等居品整个,面向生成式 AI 共同构成完满惩办有策动。
英伟达称,Blackwell 领有 6 项创新性本领,可救助多达 10 万亿参数的模子进行 AI 磨练和及时大谈话模子(LLM)推理。
1.各人最宽敞的芯片:Blackwell 架构 GPU 领有 2080 亿个晶体管,确保了芯片具有极高的策动智商和复杂性;汲取台积电 4 纳米工艺制造,提高了芯片的集成度,裁汰了功耗和发烧量;配备 192GB 的 HBM3E 显存,极大进步了芯片的数据处忠良商和效果。
2.第二代 Transformer 引擎:聚拢 Blackwell Tensor Core 本领和 TensorRT-LLM 和 NeMo Megatron 框架中的英伟达先进动态范围管制算法,Blackwell 将通过新的 4 位浮点 AI 救助双倍的策动和模子大小推忠良商。
3.第五代 NVLink:为提高数万亿参数和搀杂内行 AI 模子的性能,最新一代英伟达 NVLink 为每个 GPU 提供了冲破性的 1.8TB/s 的双向费解量,确保最复杂 LLM 之间多达 576 个 GPU 之间的无缝高速通讯。
4.RAS 引擎:Blackwell 救助的 GPU 包含一个专用引擎,齐全可靠性、可用性和做事性。此外,Blackwell 架构还增多了芯片级功能,欺诈基于 AI 的小心肠爱戴进行会诊和预测可靠性问题。这不错最大截止地延长系统浮浅运行时辰,并提肥硕限制部署 AI 的弹性。
5.安全东说念主工智能:先进的机密策动功能可在不影响性能的情况下保护 AI 模子和客户数据,并救助新的本机接口加密左券,进一步增强了芯片的安全性。
6.解压缩引擎:专用解压缩引擎救助最新样式,加速数据库查询,提供数据分析和数据科学的最高性能。
英伟达 CEO 黄仁勋称,Blackwell 不单是芯片,而是一个全新的平台。它将是英伟达历史上、乃至整个策动机历史上最奏效的居品。
Blackwell 的市集影响Blackwell 架构的推出受到了各人各大云提供商、做事器制造商以及头部 AI 企业的深爱,如亚马逊、谷歌和微软等。英伟达暗意,Blackwell 正在被各人各大云做事提供商汲取。同期,AI 公司、电信提供商和一系列其他本领企业也有着强盛的需求。
Blackwell 的发布预示着 AI 的又一个冲破时刻的到来,还是发布便获取了微软 CEO 萨蒂亚・纳德拉(Satya Nadella)、Alphabet CEO 桑达尔・皮查伊(Sundar Pichai)、亚马逊 CEO 安迪・贾西(Andy Jassy)、OpenAI CEO 萨姆・阿尔特曼(Sam Altman),以偏执他着名科技首领和名东说念主的救助。
至关热切的是,Blackwell 是一个更大的生态系统计谋的一部分。黄仁勋称:“Blackwell 不仅是系统的中枢芯片,它骨子上如故一个平台。它基本上等于一个策动机系统。”
Nvidia 还将使用 Blackwell 来进步其在软件范畴的地位和宏愿。向上的 AI 开发商已经依赖 Nvidia 的 CUDA 软件来创建由该公司处理器驱动的应用要津,而高性能 Blackwell 处理器的蛊卦力应有助于确保客户链接使用其软件。
该计谋以致蔓延得更远。黄仁勋在 GTC 的一次会议上称:“你不错制造芯片让软件运行得更好,但莫得软件你就无法创造一个新的市集。咱们的独到之处在于,我深信咱们是惟逐个家约略创造我方市集的芯片公司。”
跟着基于 Blackwell 架构的 GPU GB200 的发布,英伟达似乎正在为创建新类别的 AI 软件应用要津掀开大门。反过来,此类软件的推出、膨大和握续发展可能会对其超高端 GPU 产生更大的需求。
Blackwell 出货延迟本月初有报说念称,英伟达的下一代 Blackwell 系列 AI 芯片因联想劣势问题被动推迟发布,这一决定可能对包括 Meta、谷歌和微软在内的大客户形成影响。
据悉,Blackwell 芯片的大限制坐褥原策画于本年第三季度开动,并于第四季度开动委派。但说念,在准备大限制坐褥时,台积电的工程师发现了联想问题,导致坐褥受阻。
报说念称,由于台积电封装本领 CoWoS 的复杂性,英伟达将推迟 Blackwell GPU 的出货时辰至 2025 年第一季度。
瑞银(UBS)分析师以为,英伟达首批 Blackwell 芯片最多延迟 4~6 周出货,即推迟到 2025 年 1 月底。为此,许多客户会改而采购交货时辰短的 H200 芯片。
而摩根士丹利的分析师相对乐不雅,以为 Blackwell 芯片的坐褥仅会暂停约两周,并可在 2024 年第四季度通过台积电的奋勉赶上过程。
合座而言,分析师以为相关 Blackwell 芯片推迟上市的担忧可能被夸大了,瞻望这不会对英伟达的营收或需求产生要紧影响。
英伟达 CEO 黄仁勋暗意,Blackwell GPU 的研发预算约为 100 亿好意思元,上市后单价会在 3~4 万好意思元。鉴于现时磨练和部署 AI 的强盛需求,该价钱也并未超出市集预期。
“反英伟达”定约包括 Alphabet、高通和英特尔在内的公司正在联手创建一个组织“UXL 基金会”,旨在阻挠英伟达在 AI 范畴开采无可争议的主导地位。
UXL 基金会旨在创建一个软件套件,匡助在更无为的处理器上运行 AI 应用要津,并减少对英伟达平台的依赖。
据报说念,UXL 基金会现在正在招募微软、亚马逊和其他有影响力的科技公司。因此,尽管许多科技界的着名东说念主士对 Blackwell 的智商感到欣喜,但不错相连的是,东说念主们对更无为的 AI 范畴过度依赖英伟达的生态系统握胁制魄力。
在某种程度上,UXL 基金会的树立阐发了英伟达现在的竞争地位有多强。该公司在用于 AI 和其他加速策动应用的 GPU 市集上占据了省略 90% 的份额,而 Blackwell 的推出可能有助于它链接保握以致扩大其主导地位。
与不时扩大的专用软件器用集会拢,英伟达正在重塑 AI 范畴,而其竞争敌手和潜在竞争敌手还有许多职责要作念。
丝袜美腿视频干系阅读:
《英伟达 Blackwell 在数据中心参预运行:NVLINK 升级至 1.4 TB/s,首张 FP4 GenAI 图像公布》
告白声明:文内含有的对外跳转相连(包括不限于超相连、二维码、口令等神色),用于传递更多信息,从简甄选时辰,完了仅供参考汉服 足交,IT之家整个著作均包含本声明。