PRODUCT

NVIDIA Grace CPU & NVIDIA Grace Hopper

NVIDIA Grace CPU and Arm Architecture

  • CPU up to 144 cores

NVIDIA Grace CPU and Arm Architecture

最大級の AI、HPC、クラウド、ハイパースケール ワークロードを高速化

AI モデルは、数十テラバイト規模のデータを活用したより精度の高いレコメンダー システム、数千億のパラメーターを持つ対話型 AI 、科学的なさらなる発見などによって、複雑さとサイズが爆発的に増加増大しています。これらの巨大モデルをスケーリングするには、大量のメモリ プールに高速アクセスし、CPU と GPU が密結合した新しいアーキテクチャが必要です。NVIDIA Grace™ CPU は、高性能、優れた電力効率性、高帯域幅の接続性を実現し、データ センターのさまざまなニーズに合わせて多様な構成で使用することができます。

NVIDIA Grace CPU Superchip

NVIDIA Grace CPU Superchipは、NVLink-C2C技術を採用し、144個の Arm® Neoverse V2コアと 1テラバイト/秒(TB/s)のメモリ帯域幅を提供します。

特徴

  • Up to 144 high-performance Arm Neoverse V2 Cores with 4x128b SVE2
  • High-performance NVIDIA Scalable Coherency Fabric with 3.2 terabytes per second (TB/s) bisection bandwidth
  • Up to 960 gigabytes (GB) of LPDDR5X memory with error-correction code (ECC) with up to 1TB/s of memory bandwidth
  • 900GB/s NVLink-C2C
  • 500W module (CPU + memory)

Datasheet

Whitepaper

2X More Data Center Throughput in Cloud and HPC Apps

Data center-level projection of NVIDIA Grace Superchip vs. x86 flagship dual-socket data center systems (112 and 192 core systems). CFD: OpenFOAM (Motorbike| Small) Big Data: HiBench+Kmeans Spark (HiBench 7.1.1, Hadoop 3.3.3, Spark 3.3.0) and Microservices: Google Protobufs (Commit 7cd0b6fbf1643943560d8a9fe553fd206190b27f | N instances in parallel).

Preliminary Product Specifications

Feature
Core count 144 Arm Neoverse V2 Cores with 4x128b SVE2
L1 cache 64KB i-cache + 64KB d-cache
L2 cache 1MB per core
L3 cache 234MB
LPDDR5X size 240GB, 480GB and 960GB<br>
on-module memory options
Memory bandwidth Up to 1TB/s
NVIDIA NVLink-C2C bandwidth 900GB/s
PCIe links Up to 8x PCIe Gen5 x16 option to bifurcate
Module thermal design power(TDP) 500W TDP with memory
Form factor Superchip module
Thermal solution Air cooled or liquid cooled

NVIDIA Grace Hopper Superchip

NVIDIA Grace Hopper™ Superchip は、NVIDIA® NVLink®-C2C を使用して Grace および Hopper 両方のアーキテクチャを組み合わせ、高速化された AI およびハイ パフォーマンス コンピューティング (HPC) アプリケーション向けの CPU + GPU コヒーレント メモリ モデルを提供します。

特徴

  • 72-core NVIDIA Grace CPU
  • NVIDIA H100 Tensor Core GPU
  • Up to 480GB of LPDDR5X memory with error-correction code (ECC)
  • Supports 96GB of HBM3 or 144GB of HBM3e
  • Up to 624GB of fast-access memory
  • NVLink-C2C: 900GB/s of coherent memory

Datasheet

Whitepaper

Product Specifications

Grace CPU Feature
Core count 72 Arm Neoverse V2 cores
L1 cache 64KB i-cache + 64KB d-cache
L2 cache 1MB per core
L3 cache 117MB
LPDDR5X size Up to 480GB
Memory bandwidth Up to 512GB/s
PCIe links Up to 4x PCIe x16 (Gen5)

 

Hopper H100 GPU Feature
FP64 34 teraFLOPS
FP64Tensor Core 67 teraFLOPS
FP32 67 teraFLOPS
TF32 Tensor Core 989 teraFLOPS* | 494 teraFLOPS
BFLOAT16 Tensor Core 1,979 teraFLOPS* | 990 teraFLOPS
FP16 Tensor Core 1,979 teraFLOPS* | 990 teraFLOPS
FP8 Tensor Core 3,958 teraFLOPS* | 1,979 teraFLOPS
INT8 Tensor Core 3,958 TOPS* | 1,979 TOPS
High-bandwidth memory (HBM) size Up to 96GB | 144GB HBM3e
Memory bandwidth Up to 4TB/s | Up to 4.9TB/s HBM3e
NVIDIA NVLink-C2C CPU-to-GPU bandwidth 900 GB/s bidirectional
Module thermal design power (TDP) Programmable from 450W to 1000W (CPU + GPU + memory)
Form factor Superchip module
Thermal solution Air cooled or liquid cooled

With sparsity

Take a Look at the Grace Lineup of Superchips

NVLink-C2C で CPU と GPU の接続を高速化します

AI と HPC に関する最大級の問題を解決するには、大容量メモリと高帯域幅メモリ (HBM) が必要です。第 4 世代の NVIDIA NVLink-C2C では、NVIDIA Grace CPU と NVIDIA GPU 間の双方向帯域幅が 1 秒あたり 900 ギガバイト (900GB/秒) にもおよびます。この接続により、システムと HBM GPU メモリを組み合わせて、シンプルなプログラム性を実現する、統合されたキャッシュコヒーレント メモリ アドレス空間が提供されます。CPU と GPU 間のこのコヒーレントな高帯域幅接続は、将来直面する非常に複雑な問題を解決するための鍵となります。

LPDDR5X で高帯域幅メモリを活用

NVIDIA Grace は、データ センターの要件を満たすために、エラー修正コード (ECC) などのメカニズムによってサーバー クラスの信頼性を持った LPDDR5X メモリを活用した初のサーバー CPU です。また、現行のサーバー メモリに比べて 2 倍のメモリ帯域幅と、最大 10 倍の電力効率を実現します。NVIDIA Grace LPDDR5X ソリューションは、大規模で高性能な最高レベルのキャッシュと相まって、大規模モデルに必要な帯域幅を提供すると同時に、システム電力を削減して次世代のワークロードのパフォーマンスを最大限に引き出します。

Arm Neoverse V2 コアで性能と効率性を向上

GPU の並列計算性能は進歩し続けており、CPU で実行されるシリアル タスクによってワークロードはコントロールすることができます。高速で効率的な CPU は、ワークロードを最大限に高速化するために、システム設計にとって重要な要素です。NVIDIA Grace CPU は、NVIDIA が設計した Scalable Coherency Fabric と Arm Neoverse V2 コアを統合し、電力効率に優れた設計で高い性能を引き出し、科学者や研究者のライフワークを大いに助けます。

HBM3 および HBM3e GPUメモリで生成 AI をスーパーチャージ

生成 AI はメモリと計算リソースを大量に使います。NVIDIA GH200 Grace Hopper Superchip は、96GB の HBM3 メモリを使用し、オリジナルの A100 の 2.5 倍以上の GPU メモリ帯域幅を提供します。次世代の GH200 は 141GB の HBM3e メモリ テクノロジを活用する世界初のプロセッサであり、オリジナルの A100 の 3 倍以上の帯域幅を提供します。NVIDIA Grace Hopper の HBM が NVLink-C2C 経由で CPU メモリと連携することで、600 GB を超える高速アクセス メモリを GPU に提供し、アクセラレーテッド コンピューティングや生成 AI の非常に複雑なワークロードを処理するために必要なメモリ容量と帯域幅を提供します。

弊社では、科学技術計算や解析などの各種アプリケーションについて動作検証を行い、
すべてのセットアップをおこなっております。
お客様が必要とされる環境にあわせた最適なシステム構成をご提案いたします。