英伟达(Nvidia)一年一度的GTC大会按期而至,两年一更新的GPU架构Hopper也正式露脸。
本年,NVIDIA创始人兼CEO黄仁勋在英伟达新总部大楼发布了一系列新品,重新架构GPU H100,到Grace CPU 超级芯片,再到轿车、边际核算的硬件新品,以及全面的软件更新。
英伟达的全新发布再次向外界宣告,英伟达不止是一家芯片公司,而是全栈核算公司。他们正在加强其在AI、轿车等范畴的领导力,一起也在尽力占据下一波AI浪潮以及元世界的先机。
当然,作为一家创造GPU的公司,英伟达的全新GPU架构依旧是GTC 2022最值得重视的新品。
Nvidia Hopper新架构以美国核算机范畴的前驱科学家 Grace Hopper 的姓名命名,将替代两年前推出的 NVIDIA Ampere 架构。比较上一代产品,依据Hopper架构的H100 GPU完成了数量级的功用腾跃。
黄仁勋表明,20个 H100 GPU 便可承托相当于全球互联的流量,使其能够协助客户推出先进的引荐体系以及实时运转数据推理的大型言语模型。
依据H100 GPU构建的各种体系,以及与Grace CPU 超级芯片组合的各种体系,协作英伟达多年构建强壮的软件生态,将成为了英伟达掀起新一代核算浪潮的能量。
H100 GPU将在本年第三季度出货,下一年上半年开端供货Grace CPU超级芯片。
最新Hopper架构H100 GPU的6大打破
黄仁勋2020年从自家厨房端出的其时全球最大7nm芯片Ampere架构GPU A100,两年后有了继任者——Hopper架构H100.英伟达H100 GPU选用专为英伟达加快核算需求规划优化的TSMC 4N 工艺,集成800亿个晶体管,明显提高了AI、HPC、显存带宽、互连和通讯的速度,并能够完成近 5TB/s 的外部互联带宽。
H100一起也集多个首个于一身,包含首款支撑 PCIe 5.0 的 GPU,首款选用 HBM3 的 GPU,可完成 3TB/s 的显存带宽,全球首款具有秘要核算功用的GPU.
H100的第二项打破便是其加快器的 Transformer 引擎能在不影响精度的情况下,将Transformer络的速度提高至上一代的六倍。Transformer 让自监督学习成为可能,现在已成为自然言语处理的规范模型方案,也是深度学习模型范畴最重要的模型之一。
雷峰(大众号:雷峰)了解到,H100 将支撑谈天机器人运用功用超强壮的monolipic Transformer 言语模型 Megatron 530B,吞吐量比上一代产品高出 30 倍,一起满意实时对话式 AI 所需的次秒级推迟。
H100的第三项打破是进一步晋级的第二代多实例GPU.上一代产品中,英伟达的多实例GPU技能可将每个A100 GPU分割为七个独立实例来履行推理使命。新一代的Hopper H100与上一代产品比较,在云环境中经过为每个 GPU 实例供给安全的多租户装备,将 MIG 的部分才能扩展了 7 倍。
MIG 技能支撑将单个 GPU 分为七个更小且彻底独立的实例,以处理不同类型的使命。
H100的第四项打破便是其是全球首款具有秘要核算功用的加快器,隐私核算此前只能在CPU上完成,H100是第一个完成隐私核算的GPU,可保护 AI 模型和正在处理的客户数据。秘要核算的优势在于其不仅能保证数据的秘要性,一起还不影响功用,能够运用于医疗健康和金融服务等隐私灵敏型职业的联邦学习,也能够运用于同享云基础设施。
H100的第五项打破是在互联功用的提高,支撑第4代 NVIDIA NVLink.现在的AI模型越来越大,带宽成为了约束超大规模AI模型迭代的阻止。英伟达将NVLink 结合全新的外接 NVLink Switch,可将 NVLink 扩展为服务器间的互联络,最多能够衔接多达 256 个 H100 GPU,相较于上一代选用 NVIDIA HDR Quantum InfiniBand络,带宽高出9倍。
这项打破能够带来的直接提高是,运用 H100 GPU,研讨人员和开发者能够练习巨大的模型,比方包含3950亿个参数的混合专家模型,练习速度加快高达9倍,练习时刻从几周缩短到几天。
H100的第六个打破是对新的 DPX 指令可加快动态规划,适用于包含途径优化和基因组学在内的一系列算法,英伟达的测验数据显现,与 CPU 和上一代 GPU 比较,其速度提高别离可达 40 倍和 7 倍。
别的,Floyd-Warshall 算法与 Smip-Waterman 算法也在H100 DPX指令的加快之列,前者能够在动态库房环境中为自主机器人车队寻觅最优线路,后者可用于DNA和蛋白质分类与折叠的序列比对。
硬件打破之外,英伟达也发布了一系列相应的软件更新,包含用于语音、引荐体系和超大规模推理等作业负载的 NVIDIA AI 软件套件,还有60多个针对CUDA-X的一系列库、东西和技能的更新,能够加快量子核算和 6G 研讨、络安全、基因组学和药物研制等范畴的研讨进展。
清楚明了,H100 GPU的六项打破,带来的是更高的核算功用,但这些功用的提高和优化,全都指向AI核算,这也是英伟达进一步扩展在AI核算范畴领导力的表现。
NVIDIA Eos,比全球最快超级核算机AI功用快 4 倍
有了功用晋级的GPU,英伟达的第四代DGX体系DGX H100也随之露脸,包含DGX POD和DGX SupePOD两种架构,能够满意大型言语模型、引荐体系、医疗健康研讨和气候科学的大规模核算需求。
每个 DGX H100 体系装备八块 NVIDIA H100 GPU,并由 NVIDIA NVLink衔接,能够在新的 FP8 精度下到达 32 Petaflop 的 AI 功用,比上一代体系功用高6倍。每个DGX H100 体系还包含两个NVIDIA BlueField-3 DPU,用于卸载、加快和阻隔高档络、存储及安全服务。
新的 DGX SuperPOD 架构选用全新的 NVIDIA NVLink Switch 体系,经过这一体系最多可衔接32个节点,总计256块H100 GPU.第四代NVLink与NVSwitch相结合,能够在每个DGX H100体系中的各个GPU之间完成 900 GB/s 的衔接速度,是上一代体系的 1.5 倍。
新一代DGX SuperPOD功用相同明显提高,能够供给1 Exaflops的FP8 AI功用,比上一代产品功用高6倍,能够运转具有数万亿参数的巨大LLM作业负载,有助于推进气候科学、数字生物学和 AI 未来的展开。
依据DGX H100,英伟达将在本年晚些时候开端运转全球运转速度最快的 AI 超级核算机 —— NVIDIA Eos,“Eos”超级核算机共装备 576 台 DGX H100 体系,合计 4608 块 DGX H100 GPU,估计将供给 18.4 Exaflops 的 AI 核算功用,比日本的Fugaku(富岳)超级核算机快 4 倍,后者是现在运转速度最快的体系。
在传统的科学核算方面,Eos 超级核算机估计将供给 275 Petaflop 的功用。
黄仁勋说:“关于 NVIDIA 及OEM 和云核算协作伙伴,Eos 将成为先进 AI 基础设施的蓝图。”
576个DGX H100体系能够构建一台全球运转速度最快的AI体系,少数的DGX SuperPOD 单元组合,也可认为轿车、医疗健康、制作、通讯、零售等职业供给开发大型模型所需的 AI 功用。
黄仁勋说到,为支撑正在进行AI开发的DGX客户,NVIDIA DGX-Ready软件协作伙伴(包含Domino Data Lab、Run:ai和Weights & Biases等)供给的MLOps解决方案将参加“NVIDIA AI 加快”方案。
为了简化AI布置,英伟达还推出了DGX-Ready 保管服务方案,可认为期望与服务供给商展开协作来监督其基础设施的客户供给支撑。经过新的 DGX-Ready 生命周期办理方案,客户还能够凭借新的 NVIDIA DGX 渠道晋级其现有 DGX 体系。
Grace CPU 超级芯片,最强壮的CPU
上一年的GTC 21,英伟达首款数据中心CPU Grace露脸,英伟达的芯片道路也晋级为GPU+DPU+CPU。
本年的GTC 22,英伟达由推出了首款面向 AI 基础设施和高功用核算的依据Arm Neoverse的数据中心专属CPU Grace CPU 超级芯片。
Grace CPU 超级芯片是专为AI、HPC、云核算和超大规模运用而规划,能够在单个插座(socket)中包容 144 个 Arm 中心,在 SPECrate 2017_int_base 基准测验中的模仿功用到达业界抢先的 740 分。依据 NVIDIA 实验室运用同类编译器预算,这一成果较当时DGX A100搭载的双CPU(AMD EPYC 7742)比较高 1.5 倍以上。
黄仁勋称誉:“Garce的一切都令人惊叹,咱们估计Grace超级芯片到时将是最强壮的CPU,是没有发布的第5代尖端CPU的2到3倍。”
据介绍,依托带有纠错码的LPDDR5x 内存组成的立异的内存子体系,Grace CPU 超级芯片可完成速度和功耗的最佳平衡。LPDDR5x 内存子体系供给两倍于传统DDR5规划的带宽,可到达1 TB/s ,一起功耗也大幅下降 ,CPU加内存全体功耗仅500瓦。
值得注意的是,Grace CPU超级芯片由两个CPU芯片组成,经过NVLink-C2C互连在一起。NVLink-C2C 是一种新式的高速、低推迟、芯片到芯片的互连技能,将支撑定制裸片与NVIDIA GPU、CPU、DPU、NIC 和 SOC 之间完成共同的互连。
凭借先进的封装技能,NVIDIA NVLink-C2C 互连链路的能效最多可比NVIDIA芯片上的PCIe Gen 5高出25倍,面积功率高出90倍,可完成每秒900GB甚至更高的共同互联带宽。
得益于Grace CPU 超级芯片能够运转一切的英伟达核算软件栈,包含NVIDIA RTX、NVIDIA HPC、NVIDIA AI 和 Omniverse.Grace CPU超级芯片结合NVIDIA ConnectX-7 卡,能够灵敏地装备到服务器中,能够作为独立的纯CPU体系,或作为GPU加快服务器,搭载一块、两块、四块或八块依据Hopper的GPU,客户经过保护一套软件栈就能针对本身特定的作业负载做好功用优化。
今天发布的NVIDIA Grace超级芯片系列以及上一年发布的Grace Hopper超级芯片均选用了NVIDIA NVLink-C2C 技能来衔接处理器芯片。
英伟达表明,除NVLink-C2C外,NVIDIA还将支撑本月早些时候发布的 UCIe(Universal Chiplet Interconnect Express,通用小芯片互连传输通道)规范。与NVIDIA芯片的定制芯片集成既能够运用 UCIe 规范,也能够运用 NVLink-C2C.