NVIDIA GH100 HopperフラッグシップGPUは、約1000mm2で、これまでに製造された中で最大のGPU

NVIDIAは、次世代のHopper GPUの商標を申請するのに問題があるかもしれませんが、 Kopite7kimiからの最新の噂によると、チップのサイズは約1000mm2であるとのことで、フラッグシップGH100ダイの開発を妨げることはありません。

NVIDIA GH100 GPU、次世代のフラッグシップデータセンターチップ、約1000mm2を測定

現在、生産中の最大のGPUは、826mm2のNVIDIA Ampere GA100です。噂が正しければ、NVIDIAのHopper GH100は、これまでに考えられた中で最大のGPU設計になり、約1000mm2で、現在のモンスターGPUを少なくとも100mm2上回ります。しかし、それだけではありません。問題のダイサイズは単一のGH100 GPUダイ用であり、HopperがNVIDIAの最初のMCMチップ設計になるという噂を聞いたので、同じインターポーザーに少なくとも2つのHopper GH100 GPUを搭載していることを考えると、ダイだけです。 2000mm2を測定します。これはすべて、インターポーザーがいくつかのHBM2eスタックやその他の接続を搭載することを考えると、これまでに見たものよりもはるかに大きくなることを意味します。ただし、Greymon55は、MCMを搭載するのはGH100ではなく、別のチップであるGH102であると述べています。つまり、GH100はモノリシックなデザインのままである可​​能性が高いが、HopperはMCMパーツを備えているということです。

NVIDIA Hopper GPUについて

以前の情報から、NVIDIAのGH100アクセラレータはTSMCの5nmプロセスノードに基づいていることがわかります。Hopperには2つの次世代GPUモジュールがあるはずなので、合計288のSMユニットを見ています。各SMに搭載されているコアの数がわからないため、コア数の概要を示すことはできませんが、SMあたり64コアに固執する場合は、18,432コアが得られます。これは、完全なGA100GPU構成。NVIDIAは、Hopper GPU内でより多くのFP64、FP16、およびTensorコアを活用することもできます。これにより、パフォーマンスが大幅に向上します。そしてそれは、1:1FP64を搭載することが期待されているIntelのPonte Vecchioに競合するために必要になるでしょう。

最終的な構成では、各GPUモジュールで有効になっている144個のSMユニットのうち134個が付属する可能性があります。そのため、1つのGH100ダイが動作していることを確認している可能性があります。ただし、NVIDIAがGPU Sparsityを使用せずにMI200と同じFP32またはFP64フロップに到達する可能性はほとんどありません。

しかし、NVIDIAはおそらく彼らの袖に秘密兵器を持っているかもしれません、そして、それはHopperのCOPAベースのGPU実装でしょう。NVIDIAは、次世代アーキテクチャに基づく2つのドメイン専用COPA-GPUについて説明しています。1つはHPC用で、もう1つはDLセグメント用です。HPC製品は、MCM GPU設計とそれぞれのHBM / MC + HBM(IO)チップレットで構成される非常に標準的なアプローチを特徴としていますが、DL製品は物事が面白くなり始めるところです。DL製品は、GPUモジュールと相互接続された完全に独立したダイに巨大なキャッシュを収容します。

ArchitectureLLC CapacityDRAM BWDRAM Capacity
Configuration(MB)(TB/s)(GB)
GPU-N602.7100
COPA-GPU-19602.7100
COPA-GPU-29604.5167
COPA-GPU-319202.7100
COPA-GPU-419204.5167
COPA-GPU-519206.3233
Perfect L2infiniteinfiniteinfinite

最大960 / 1920MBのLLC(Last-Level-Cache)、最大233GBのHBM2eDRAM容量、および最大6.3 TB / sの帯域幅を備えたさまざまな製品が概説されています。これらはすべて理論上のものですが、NVIDIAが現在それらについて議論していることを考えると、 GTC 2022の発表で、そのような設計のHopperが見られる可能性があります。

NVIDIA Hopper GH100 Preliminary Specs

NVIDIA Tesla Graphics CardTesla K40 (PCI-Express)Tesla M40 (PCI-Express)Tesla P100 (PCI-Express)Tesla P100 (SXM2)Tesla V100 (SXM2)NVIDIA A100 (SXM4)NVIDIA H100 (SMX4?)
GPUGK110 (Kepler)GM200 (Maxwell)GP100 (Pascal)GP100 (Pascal)GV100 (Volta)GA100 (Ampere)GH100 (Hopper)
Process Node28nm28nm16nm16nm12nm7nm5nm
Transistors7.1 Billion8 Billion15.3 Billion15.3 Billion21.1 Billion54.2 BillionTBD
GPU Die Size551 mm2601 mm2610 mm2610 mm2815mm2826mm2TBD
SMs1524565680108134 (Per Module)
TPCs152428284054TBD
FP32 CUDA Cores Per SM1921286464646464?
FP64 CUDA Cores / SM6443232323232?
FP32 CUDA Cores2880307235843584512069128576 (Per Module) 17152 (Complete)
FP64 CUDA Cores9609617921792256034564288 (Per Module)? 8576 (Complete)?
Tensor CoresN/AN/AN/AN/A640432TBD
Texture Units240192224224320432TBD
Boost Clock875 MHz1114 MHz1329MHz1480 MHz1530 MHz1410 MHz~1400 MHz
TOPs (DNN/AI)N/AN/AN/AN/A125 TOPs1248 TOPs 2496 TOPs with SparsityTBD
FP16 ComputeN/AN/A18.7 TFLOPs21.2 TFLOPs30.4 TFLOPs312 TFLOPs 624 TFLOPs with Sparsity779 TFLOPs (Per Module)? 1558 TFLOPs with Sparsity (Per Module)?
FP32 Compute5.04 TFLOPs6.8 TFLOPs10.0 TFLOPs10.6 TFLOPs15.7 TFLOPs19.4 TFLOPs 156 TFLOPs With Sparsity24.2 TFLOPs (Per Module)? 193.6 TFLOPs With Sparsity?
FP64 Compute1.68 TFLOPs0.2 TFLOPs4.7 TFLOPs5.30 TFLOPs7.80 TFLOPs19.5 TFLOPs (9.7 TFLOPs standard)24.2 TFLOPs (Per Module)? (12.1 TFLOPs standard)?
Memory Interface384-bit GDDR5384-bit GDDR54096-bit HBM24096-bit HBM24096-bit HBM26144-bit HBM2e6144-bit HBM2e
Memory Size12 GB GDDR5 @ 288 GB/s24 GB GDDR5 @ 288 GB/s16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s16 GB HBM2 @ 732 GB/s16 GB HBM2 @ 900 GB/sUp To 40 GB HBM2 @ 1.6 TB/s Up To 80 GB HBM2 @ 1.6 TB/sUp To 100 GB HBM2e @ 3.5 Gbps
L2 Cache Size1536 KB3072 KB4096 KB4096 KB6144 KB40960 KB81920 KB
TDP235W250W250W300W300W400W~450-500W

(Source:wccftech)

関連記事