新架构超级GPU问世，英伟达独孤求败

发布日期：2024-03-22 22:31:28

当你成为市场最炙手可热的人物时，你会做什么？这是英伟达（NASDAQ：NVDA）以及越来越多的技术合作伙伴、客户和投资者在英伟达五年来首次现场GTC会议之前一直在思考的问题。

简而言之，公司给出的答案是两种截然不同的东西。首先，它推出了底层架构的下一代重塑，使其GPU芯片成为GenAI革命中极其重要的一部分。其次，它宣布了一系列广泛的工具和合作伙伴关系，使各种类型的企业将生成式人工智能应用程序投入生产的过程变得更加容易。

在此过程中，英伟达还强调了其成为一家软件和服务公司的雄心壮志，发布了AI Enterprise 5.0和其中包含的新NIM（英伟达推理微服务）。该公司还成功扩大了应用范围，以及致力于为其提供关键GenAI计算解决方案的行业，包括医疗保健、重工业、汽车、机器人、制造、电信(6G)、天气预报等。

在芯片方面，GTC的重大新闻是Blackwell GPU架构，该架构以非裔美国数学家David Blackwell的名字命名。这是自两年前Hopper架构首次亮相以来，该公司在芯片设计方面的首次重大进展。Blackwell对其前身进行了多项重要改进，特别是在芯片的性能和功效方面。具体来说，英伟达表示Blackwell提供的20 PetaFLOPS人工智能性能在人工智能训练工作负载上速度提高了4倍，在人工智能推理工作负载上速度提高了30倍，最值得注意的是，其能效比其前身提高了25倍。

从物理上看，2080亿个晶体管Blackwell设计由两个处理元件组成，每个处理元件的大小均达到4nm制造设备允许的大小，通过称为NV-HBI的超高速链路连接，数据传输速度为10 TB/秒。该芯片还支持高达192 GB的HBM3e内存。

在芯片内部，Blackwell取得的一项重要进步是第二代变压器引擎。这使得主张量处理单元内的每个微张量都可以得到实时监控，从而能够与该公司的TensorRT LLM和NeMo Megatron AI框架结合使用，支持4位浮点AI计算。实际上，通过将这些计算从前几代的8位减少到最少，他们可以通过这一单一更改将Blackwell上支持的计算性能和模型大小提高一倍。有些人可能会认为这是苹果与橙子的比较，但它可以处理更大的模型这一事实证明了现实世界的好处。

尽管单个Blackwell GPU的功能可能很强大，但在专家混合(MoE)AI“超级模型”的新时代（可以包含超过10万亿个参数并处理超过32,000个输入标记），迫切需要连接大量的GPU在一起。这就是该公司新的NVLink 5.0技术的用武之地，因为它允许最多576个GPU以高达1.8 TB/秒的速度连接在一起。

与上一代产品一样，英伟达还整合了一款“超级芯片”，将其最新的GPU与基于Arm的CPU设计相结合。最新的超级芯片版本称为Grace Blackwell 200（或简称GB200），它包括两个Blackwell GPU和一个Grace CPU。这些GB200以各种配置封装在一起，并将成为该公司新型NVL72机架服务器设计以及下一代DGX SuperPod的核心。访问多个Blackwell GPU的另一种方法是通过HGX B200服务器主板，该主板将8个Blackwell GPU（称为B200）集成到一张卡上，用于较小的服务器设计。

连接性对于所有这些系统都至关重要，因此该公司还推出了一系列新的交换机，包括基于InfiniBand的Quantum-X800交换机和基于以太网的Spectrum-X800。两者都利用该公司的BlueField技术来加快将数据通过数据中心输入GPU进行处理的过程。

毫不奇怪，每个主要的云提供商和服务器制造商都宣布很快就会推出基于Blackwell设计的服务或系统，因为所有主要IT公司都在利用英伟达的技术。同样，众多令人印象深刻的软件供应商也宣布他们将在其应用程序的下一代版本中支持Blackwell和这些最新设计。

说到软件，英伟达的重大软件新闻是引入了名为NIM的微服务，它是AI Enterprise 5.0版本的一部分。这些微服务是在该公司的CUDA软件平台之上运行的Web原生容器，经过专门设计，可以使创建和开发可利用CUDA和英伟达硬件的GenAI应用程序的过程变得更加容易。

虽然可能不如最新的硬件设计那么令人兴奋，但从长远来看，这实际上更为重要，原因有几个。首先，它应该使公司能够更快、更高效地从GenAI实验和POC（概念验证）转向现实生产。由于缺乏足够的数据科学家和GenAI编程专家，许多渴望部署GenAI的公司都受到了技术挑战的限制。因此，很高兴看到英伟达帮助简化了这一过程。

从务实的角度来看，许多微服务都专注于重要的功能，旨在使英伟达硬件加速的GenAI应用程序更具吸引力。例如，英伟达有多项NIM服务，称为CUDA-X，专注于将现有企业数据集成到应用程序中的过程。对于许多组织来说，数据格式化和摄取过程一直存在问题，因此英伟达与许多专注于数据管理工具的软件公司构建的解决方案非常重要。与此相关的是，NeMO Retriever微服务包含将RAG（检索增强生成）等重要的新细化技术集成到定制应用程序中的功能，以便它们可以更好地使用企业数据。

除了这些单独的微服务之外，英伟达还谈到了AI Foundry的想法，它可以帮助客户将他们需要的各种微服务容器拼凑在一起，帮助他们将它们与客户的特定数据集配对，并帮助他们构建一个定制GenAI应用程序。这非常重要，因为大多数组织都需要帮助来做到这一点。英伟达可以利用在构建自己的模型时积累的经验来帮助应用程序的创建过程。事实上，他们还可以通过这个过程赚一些钱，这是一个非常好的好处。

正如英伟达首席执行官黄仁勋的主题演讲所典型的那样，大量的信息进一步扩展了其中一些公告，特别是跨行业的更实际的应用。但最终，我们清楚的是，英伟达非常认真地对待自己作为GenAI行业引擎的角色，并且远非满足于现状，而是尽可能快地推动自己向前发展。

新的硬件进步代表了保持GenAI疯狂创新步伐尽可能快地向前发展的重要新步骤。Blackwell平台也是第一个在GenAI时代设计和构建的GPU平台，一些设计调整清楚地反映了超大型法学硕士的具体需求。更重要的是，新的软件应用程序和微服务希望将公司定位为更广泛、更重要的GenAI行业长期推动者。

此外，正如活动中发布的大量合作伙伴公告所表明的那样，科技行业的很大一部分人显然将英伟达视为他们将在未来一段时间内关注和合作的公司。

朋湖网

科技产业信息资讯平台

新架构超级GPU问世，英伟达独孤求败

朋湖网

深圳再次发布 “ 具身机器人 ”产业基金

悠然无界大模型及MAGX空间智能体新品重磅发布，引领空间智能技术革命

北京人形机器人创新中心牵头发布全球首个《人形机器人智能化分级》标准

元禾控股发行6亿元科创债