GPU 超算来了,DGX GH200 首个 100 TB 内存 GPU 系统

英伟达股票暴涨之后黄老板又带来一个爆炸性产品:DGX GH200,首批客户只有三家:

通过 NVLink 可以配置 256 个 GPU,不同 GPU 之间的内存是共享的,软件角度可以当成一块 GPU。硬件架构上做了很多创新,比如为文本、音频、视频新设计的超高速存储结构,互联架构等。

许多主流的 AI 模型都可以在这 “单” 个 GPU 内运行,相比传统方案可以提速 4-7 倍。

blog: Announcing NVIDIA DGX GH200: The First 100 Terabyte GPU Memory System

我感觉这才是未来 GPU 多租户的实现方式,现有 kubernetes + cpu + 内存 + 显卡的组合方式很难将 GPU 资源切片,往往一个应用就吃掉整张 GPU,也是 GPU 上云很昂贵且利用率不高的原因。在硬件架构融合的基础上(GPU 和内存共享)用软件实现计算资源分配会更加灵活。

nvidia·gpu
61 views
Comments
登录后评论
Sign In