NVIDIAは、GTC 2022で次世代のデータセンター向けに設計されたコンピューティングパワーハウスであるHopper H100 GPUを発表しました。この強力なチップについて話してからしばらく経ちましたが、NVIDIAがメディアを選択するためにその主力チップのクローズアップ写真を提供したようです。
NVIDIA Hopper H100 GPUは、世界初4nmとHBM3テクノロジーを搭載、その高解像度写真
CNETは、H100 GPUが融合されたグラフィックスボードだけでなく、H100チップ自体も手に入れることができました。H100 GPUは、最新の4nmテクノロジーが搭載され、最先端のHBM3メモリテクノロジーとともに800億個のトランジスタを組み込んだモンスターチップです。The tech outletによると、H100はPG520 PCBボード上に構築されており、30を超えるパワーVRMと、TSMCのCoWoSテクノロジーを使用してHopper H100 GPUを6スタックHBM3設計と組み合わせる大規模な一体型インターポーザーを備えています。
6つのスタックのうち、歩留まりの整合性を確保するために2つのスタックが保持されます。しかし、新しいHBM3標準では、3 TB/sの速度で最大80GBの容量が可能です。比較のために、現在最速のゲーミンググラフィックスカードであるRTX 3090Tiは、わずか1 TB/sの帯域幅と24GBのVRAM容量を提供します。それ以外に、H100 Hopper GPUは最新のFP8データ形式でパックされ、新しいSXM接続を通じて、チップが設計されている700Wの電力設計に対応するのに役立ちます。
NVIDIA Hopper H100 GPUの仕様の概要
したがって、仕様に合わせると、NVIDIA Hopper GH100 GPUは、合計8つのGPCに搭載されている大規模な144 SM(ストリーミングマルチプロセッサ)チップレイアウトで構成されています。これらのGPCは、それぞれ2つのSMユニットでさらに構成される合計9つのTPCを揺るがします。これにより、GPCごとに18のSMが得られ、完全な8つのGPC構成で144のSMが得られます。各SMは最大128個のFP32ユニットで構成されており、合計で18,432個のCUDAコアが得られます。以下は、H100チップに期待できる構成の一部です。
GH100 GPUの完全な実装には、次のユニットが含まれます。
- 8 GPC、72 TPC(9 TPC / GPC)、2 SM / TPC、フルGPUあたり144 SM
- SMあたり128FP32CUDAコア、フルGPUあたり18432FP32CUDAコア
- SMあたり4つの第4世代テンソルコア、フルGPUあたり576
- 6つのHBM3またはHBM2eスタック、12の512ビットメモリコントローラー
- 60MB L2キャッシュ
- 第4世代のNVLinkおよびPCIeGen5
SXM5ボードフォームファクタを備えたNVIDIAH100GPUには、次のユニットが含まれています。
- 8 GPC、66 TPC、2 SM / TPC、GPUあたり132 SM
- SMあたり128FP 32CUDAコア、GPUあたり16896FP 32CUDAコア
- SMあたり4つの第4世代Tensorコア、GPUあたり528
- 80 GB HBM3、5 HBM3スタック、10512ビットメモリコントローラー
- 50MBL2キャッシュ
- 第4世代のNVLinkおよびPCIe Gen5
これは、完全なGA100 GPU構成の2.25倍の増加です。NVIDIAはまた、パフォーマンスを大幅に向上させるHopper GPU内のより多くのFP64、FP16、およびTensorコアを活用しています。そして、それは、1:1 FP64を搭載することが期待されているIntelのPonte Vecchioに匹敵するために必要になるでしょう。
キャッシュは、NVIDIAが注目を集めているもう1つのスペースであり、Hopper GH100 GPUでは48MBになります。これは、Ampere GA100 GPUに搭載されている50MBのキャッシュに比べて20%増加し、AMDの主力製品であるAldebaran MCM GPUであるMI 250Xの3倍のサイズです。
パフォーマンスの数値を切り上げると、NVIDIAのGH100 Hopper GPUは、FP8の4000 TFLOP、FP16の2000 TFLOP、TF32の1000 TFLOP、およびFP64コンピューティングパフォーマンスの60TFLOPを提供します。これらの記録破りの数字は、それ以前に登場した他のすべてのHPCアクセラレーターを打ち負かします。比較のために、これはNVIDIA独自のA100 GPUより3.3倍高速であり、FP64コンピューティングではAMDのInstinct MI 250Xより28%高速です。FP16コンピューティングでは、H100 GPUはA100の3倍、文字通りボンカーであるMI250Xの5.2倍高速です。
カットダウンモデルであるPCIe 製品は、最近、日本で3万ドル以上で発表されたため、より強力な構成のSXMバリアントは簡単に約USD$50の費用がかかると想像できます。
NVIDIA Ampere GA100 GPU Based Tesla A100 Specs
NVIDIA Tesla Graphics Card | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIe) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIe4) | Tesla V100S (PCIe) | Tesla V100 (SXM2) | Tesla P100 (SXM2) | Tesla P100 (PCIe) | Tesla M40 (PCIe) | Tesla K40 (PCIe) |
---|---|---|---|---|---|---|---|---|---|---|
GPU | GH100 (Hopper) | GH100 (Hopper) | GA100 (Ampere) | GA100 (Ampere) | GV100 (Volta) | GV100 (Volta) | GP100 (Pascal) | GP100 (Pascal) | GM200 (Maxwell) | GK110 (Kepler) |
Process Node | 4nm | 4nm | 7nm | 7nm | 12nm | 12nm | 16nm | 16nm | 28nm | 28nm |
Transistors | 80 Billion | 80 Billion | 54.2 Billion | 54.2 Billion | 21.1 Billion | 21.1 Billion | 15.3 Billion | 15.3 Billion | 8 Billion | 7.1 Billion |
GPU Die Size | 814mm2 | 814mm2 | 826mm2 | 826mm2 | 815mm2 | 815mm2 | 610 mm2 | 610 mm2 | 601 mm2 | 551 mm2 |
SMs | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
TPCs | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
FP32 CUDA Cores Per SM | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
FP64 CUDA Cores / SM | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
FP32 CUDA Cores | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
FP64 CUDA Cores | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
Tensor Cores | 528 | 456 | 432 | 432 | 640 | 640 | N/A | N/A | N/A | N/A |
Texture Units | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
Boost Clock | TBD | TBD | 1410 MHz | 1410 MHz | 1601 MHz | 1530 MHz | 1480 MHz | 1329MHz | 1114 MHz | 875 MHz |
TOPs (DNN/AI) | 2000 TOPs | 1600 TOPs | 1248 TOPs | 1248 TOPs | 130 TOPs | 125 TOPs | N/A | N/A | N/A | N/A |
4000 TOPs | 3200 TOPs | 2496 TOPs with Sparsity | 2496 TOPs with Sparsity | |||||||
FP16 Compute | 2000 TFLOPs | 1600 TFLOPs | 312 TFLOPs 624 TFLOPs with Sparsity | 312 TFLOPs 624 TFLOPs with Sparsity | 32.8 TFLOPs | 30.4 TFLOPs | 21.2 TFLOPs | 18.7 TFLOPs | N/A | N/A |
FP32 Compute | 1000 TFLOPs | 800 TFLOPs | 156 TFLOPs (19.5 TFLOPs standard) | 156 TFLOPs (19.5 TFLOPs standard) | 16.4 TFLOPs | 15.7 TFLOPs | 10.6 TFLOPs | 10.0 TFLOPs | 6.8 TFLOPs | 5.04 TFLOPs |
FP64 Compute | 60 TFLOPs | 48 TFLOPs | 19.5 TFLOPs (9.7 TFLOPs standard) | 19.5 TFLOPs (9.7 TFLOPs standard) | 8.2 TFLOPs | 7.80 TFLOPs | 5.30 TFLOPs | 4.7 TFLOPs | 0.2 TFLOPs | 1.68 TFLOPs |
Memory Interface | 5120-bit HBM3 | 5120-bit HBM2e | 6144-bit HBM2e | 6144-bit HBM2e | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 | 384-bit GDDR5 | 384-bit GDDR5 |
Memory Size | Up To 80 GB HBM3 @ 3.0 Gbps | Up To 80 GB HBM2e @ 2.0 Gbps | Up To 40 GB HBM2 @ 1.6 TB/s Up To 80 GB HBM2 @ 1.6 TB/s | Up To 40 GB HBM2 @ 1.6 TB/s Up To 80 GB HBM2 @ 2.0 TB/s | 16 GB HBM2 @ 1134 GB/s | 16 GB HBM2 @ 900 GB/s | 16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s | 24 GB GDDR5 @ 288 GB/s | 12 GB GDDR5 @ 288 GB/s |
L2 Cache Size | 51200 KB | 51200 KB | 40960 KB | 40960 KB | 6144 KB | 6144 KB | 4096 KB | 4096 KB | 3072 KB | 1536 KB |
TDP | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |
(Source:wccftech)
この記事へのコメントはありません。