NVIDIA Hopper H100 GPUが世界最速の4nm GPUとHBM3メモリを世界初搭載

2022.05.6

NVIDIAは、GTC 2022で次世代のデータセンター向けに設計されたコンピューティングパワーハウスであるHopper H100 GPUを発表しました。この強力なチップについて話してからしばらく経ちましたが、NVIDIAがメディアを選択するためにその主力チップのクローズアップ写真を提供したようです。

NVIDIA Hopper H100 GPUは、世界初4nmとHBM3テクノロジーを搭載、その高解像度写真

CNETは、H100 GPUが融合されたグラフィックスボードだけでなく、H100チップ自体も手に入れることができました。H100 GPUは、最新の4nmテクノロジーが搭載され、最先端のHBM3メモリテクノロジーとともに800億個のトランジスタを組み込んだモンスターチップです。The tech outletによると、H100はPG520 PCBボード上に構築されており、30を超えるパワーVRMと、TSMCのCoWoSテクノロジーを使用してHopper H100 GPUを6スタックHBM3設計と組み合わせる大規模な一体型インターポーザーを備えています。

6つのスタックのうち、歩留まりの整合性を確保するために2つのスタックが保持されます。しかし、新しいHBM3標準では、3 TB/sの速度で最大80GBの容量が可能です。比較のために、現在最速のゲーミンググラフィックスカードであるRTX 3090Tiは、わずか1 TB/sの帯域幅と24GBのVRAM容量を提供します。それ以外に、H100 Hopper GPUは最新のFP8データ形式でパックされ、新しいSXM接続を通じて、チップが設計されている700Wの電力設計に対応するのに役立ちます。

NVIDIA Hopper H100 GPUの仕様の概要

したがって、仕様に合わせると、NVIDIA Hopper GH100 GPUは、合計8つのGPCに搭載されている大規模な144 SM（ストリーミングマルチプロセッサ）チップレイアウトで構成されています。これらのGPCは、それぞれ2つのSMユニットでさらに構成される合計9つのTPCを揺るがします。これにより、GPCごとに18のSMが得られ、完全な8つのGPC構成で144のSMが得られます。各SMは最大128個のFP32ユニットで構成されており、合計で18,432個のCUDAコアが得られます。以下は、H100チップに期待できる構成の一部です。

GH100 GPUの完全な実装には、次のユニットが含まれます。

8 GPC、72 TPC（9 TPC / GPC）、2 SM / TPC、フルGPUあたり144 SM
SMあたり128FP32CUDAコア、フルGPUあたり18432FP32CUDAコア
SMあたり4つの第4世代テンソルコア、フルGPUあたり576
6つのHBM3またはHBM2eスタック、12の512ビットメモリコントローラー
60MB L2キャッシュ
第4世代のNVLinkおよびPCIeGen5

SXM5ボードフォームファクタを備えたNVIDIAH100GPUには、次のユニットが含まれています。

8 GPC、66 TPC、2 SM / TPC、GPUあたり132 SM
SMあたり128FP 32CUDAコア、GPUあたり16896FP 32CUDAコア
SMあたり4つの第4世代Tensorコア、GPUあたり528
80 GB HBM3、5 HBM3スタック、10512ビットメモリコントローラー
50MBL2キャッシュ
第4世代のNVLinkおよびPCIe Gen5

これは、完全なGA100 GPU構成の2.25倍の増加です。NVIDIAはまた、パフォーマンスを大幅に向上させるHopper GPU内のより多くのFP64、FP16、およびTensorコアを活用しています。そして、それは、1：1 FP64を搭載することが期待されているIntelのPonte Vecchioに匹敵するために必要になるでしょう。

キャッシュは、NVIDIAが注目を集めているもう1つのスペースであり、Hopper GH100 GPUでは48MBになります。これは、Ampere GA100 GPUに搭載されている50MBのキャッシュに比べて20％増加し、AMDの主力製品であるAldebaran MCM GPUであるMI 250Xの3倍のサイズです。

パフォーマンスの数値を切り上げると、NVIDIAのGH100 Hopper GPUは、FP8の4000 TFLOP、FP16の2000 TFLOP、TF32の1000 TFLOP、およびFP64コンピューティングパフォーマンスの60TFLOPを提供します。これらの記録破りの数字は、それ以前に登場した他のすべてのHPCアクセラレーターを打ち負かします。比較のために、これはNVIDIA独自のA100 GPUより3.3倍高速であり、FP64コンピューティングではAMDのInstinct MI 250Xより28％高速です。FP16コンピューティングでは、H100 GPUはA100の3倍、文字通りボンカーであるMI250Xの5.2倍高速です。

カットダウンモデルであるPCIe 製品は、最近、日本で3万ドル以上で発表されたため、より強力な構成のSXMバリアントは簡単に約USD$50の費用がかかると想像できます。

NVIDIA Ampere GA100 GPU Based Tesla A100 Specs

NVIDIA Tesla Graphics Card	NVIDIA H100 (SMX5)	NVIDIA H100 (PCIe)	NVIDIA A100 (SXM4)	NVIDIA A100 (PCIe4)	Tesla V100S (PCIe)	Tesla V100 (SXM2)	Tesla P100 (SXM2)	Tesla P100 (PCIe)	Tesla M40 (PCIe)	Tesla K40 (PCIe)
GPU	GH100 (Hopper)	GH100 (Hopper)	GA100 (Ampere)	GA100 (Ampere)	GV100 (Volta)	GV100 (Volta)	GP100 (Pascal)	GP100 (Pascal)	GM200 (Maxwell)	GK110 (Kepler)
Process Node	4nm	4nm	7nm	7nm	12nm	12nm	16nm	16nm	28nm	28nm
Transistors	80 Billion	80 Billion	54.2 Billion	54.2 Billion	21.1 Billion	21.1 Billion	15.3 Billion	15.3 Billion	8 Billion	7.1 Billion
GPU Die Size	814mm2	814mm2	826mm2	826mm2	815mm2	815mm2	610 mm2	610 mm2	601 mm2	551 mm2
SMs	132	114	108	108	80	80	56	56	24	15
TPCs	66	57	54	54	40	40	28	28	24	15
FP32 CUDA Cores Per SM	128	128	64	64	64	64	64	64	128	192
FP64 CUDA Cores / SM	128	128	32	32	32	32	32	32	4	64
FP32 CUDA Cores	16896	14592	6912	6912	5120	5120	3584	3584	3072	2880
FP64 CUDA Cores	16896	14592	3456	3456	2560	2560	1792	1792	96	960
Tensor Cores	528	456	432	432	640	640	N/A	N/A	N/A	N/A
Texture Units	528	456	432	432	320	320	224	224	192	240
Boost Clock	TBD	TBD	1410 MHz	1410 MHz	1601 MHz	1530 MHz	1480 MHz	1329MHz	1114 MHz	875 MHz
TOPs (DNN/AI)	2000 TOPs	1600 TOPs	1248 TOPs	1248 TOPs	130 TOPs	125 TOPs	N/A	N/A	N/A	N/A
	4000 TOPs	3200 TOPs	2496 TOPs with Sparsity	2496 TOPs with Sparsity
FP16 Compute	2000 TFLOPs	1600 TFLOPs	312 TFLOPs 624 TFLOPs with Sparsity	312 TFLOPs 624 TFLOPs with Sparsity	32.8 TFLOPs	30.4 TFLOPs	21.2 TFLOPs	18.7 TFLOPs	N/A	N/A
FP32 Compute	1000 TFLOPs	800 TFLOPs	156 TFLOPs (19.5 TFLOPs standard)	156 TFLOPs (19.5 TFLOPs standard)	16.4 TFLOPs	15.7 TFLOPs	10.6 TFLOPs	10.0 TFLOPs	6.8 TFLOPs	5.04 TFLOPs
FP64 Compute	60 TFLOPs	48 TFLOPs	19.5 TFLOPs (9.7 TFLOPs standard)	19.5 TFLOPs (9.7 TFLOPs standard)	8.2 TFLOPs	7.80 TFLOPs	5.30 TFLOPs	4.7 TFLOPs	0.2 TFLOPs	1.68 TFLOPs
Memory Interface	5120-bit HBM3	5120-bit HBM2e	6144-bit HBM2e	6144-bit HBM2e	4096-bit HBM2	4096-bit HBM2	4096-bit HBM2	4096-bit HBM2	384-bit GDDR5	384-bit GDDR5
Memory Size	Up To 80 GB HBM3 @ 3.0 Gbps	Up To 80 GB HBM2e @ 2.0 Gbps	Up To 40 GB HBM2 @ 1.6 TB/s Up To 80 GB HBM2 @ 1.6 TB/s	Up To 40 GB HBM2 @ 1.6 TB/s Up To 80 GB HBM2 @ 2.0 TB/s	16 GB HBM2 @ 1134 GB/s	16 GB HBM2 @ 900 GB/s	16 GB HBM2 @ 732 GB/s	16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s	24 GB GDDR5 @ 288 GB/s	12 GB GDDR5 @ 288 GB/s
L2 Cache Size	51200 KB	51200 KB	40960 KB	40960 KB	6144 KB	6144 KB	4096 KB	4096 KB	3072 KB	1536 KB
TDP	700W	350W	400W	250W	250W	300W	300W	250W	250W	235W