GPU

NVIDIA Hopper H100 GPUが世界最速の4nm GPUとHBM3メモリを世界初搭載

NVIDIAは、GTC 2022で次世代のデータセンター向けに設計されたコンピューティングパワーハウスであるHopper H100 GPUを発表しました。この強力なチップについて話してからしばらく経ちましたが、NVIDIAがメディアを選択するためにその主力チップのクローズアップ写真を提供したようです。

NVIDIA Hopper H100 GPUは、世界初4nmとHBM3テクノロジーを搭載、その高解像度写真

CNETは、H100 GPUが融合されたグラフィックスボードだけでなく、H100チップ自体も手に入れることができました。H100 GPUは、最新の4nmテクノロジーが搭載され、最先端のHBM3メモリテクノロジーとともに800億個のトランジスタを組み込んだモンスターチップです。The tech outletによると、H100はPG520 PCBボード上に構築されており、30を超えるパワーVRMと、TSMCのCoWoSテクノロジーを使用してHopper H100 GPUを6スタックHBM3設計と組み合わせる大規模な一体型インターポーザーを備えています。

6つのスタックのうち、歩留まりの整合性を確保するために2つのスタックが保持されます。しかし、新しいHBM3標準では、3 TB/sの速度で最大80GBの容量が可能です。比較のために、現在最速のゲーミンググラフィックスカードであるRTX 3090Tiは、わずか1 TB/sの帯域幅と24GBのVRAM容量を提供します。それ以外に、H100 Hopper GPUは最新のFP8データ形式でパックされ、新しいSXM接続を通じて、チップが設計されている700Wの電力設計に対応するのに役立ちます。

NVIDIA Hopper H100 GPUの仕様の概要

したがって、仕様に合わせると、NVIDIA Hopper GH100 GPUは、合計8つのGPCに搭載されている大規模な144 SM(ストリーミングマルチプロセッサ)チップレイアウトで構成されています。これらのGPCは、それぞれ2つのSMユニットでさらに構成される合計9つのTPCを揺るがします。これにより、GPCごとに18のSMが得られ、完全な8つのGPC構成で144のSMが得られます。各SMは最大128個のFP32ユニットで構成されており、合計で18,432個のCUDAコアが得られます。以下は、H100チップに期待できる構成の一部です。

GH100 GPUの完全な実装には、次のユニットが含まれます。

  • 8 GPC、72 TPC(9 TPC / GPC)、2 SM / TPC、フルGPUあたり144 SM
  • SMあたり128FP32CUDAコア、フルGPUあたり18432FP32CUDAコア
  • SMあたり4つの第4世代テンソルコア、フルGPUあたり576
  • 6つのHBM3またはHBM2eスタック、12の512ビットメモリコントローラー
  • 60MB L2キャッシュ
  • 第4世代のNVLinkおよびPCIeGen5

SXM5ボードフォームファクタを備えたNVIDIAH100GPUには、次のユニットが含まれています。

  • 8 GPC、66 TPC、2 SM / TPC、GPUあたり132 SM
  • SMあたり128FP 32CUDAコア、GPUあたり16896FP 32CUDAコア
  • SMあたり4つの第4世代Tensorコア、GPUあたり528
  • 80 GB HBM3、5 HBM3スタック、10512ビットメモリコントローラー
  • 50MBL2キャッシュ
  • 第4世代のNVLinkおよびPCIe Gen5

これは、完全なGA100 GPU構成の2.25倍の増加です。NVIDIAはまた、パフォーマンスを大幅に向上させるHopper GPU内のより多くのFP64、FP16、およびTensorコアを活用しています。そして、それは、1:1 FP64を搭載することが期待されているIntelのPonte Vecchioに匹敵するために必要になるでしょう。

キャッシュは、NVIDIAが注目を集めているもう1つのスペースであり、Hopper GH100 GPUでは48MBになります。これは、Ampere GA100 GPUに搭載されている50MBのキャッシュに比べて20%増加し、AMDの主力製品であるAldebaran MCM GPUであるMI 250Xの3倍のサイズです。

パフォーマンスの数値を切り上げると、NVIDIAのGH100 Hopper GPUは、FP8の4000 TFLOP、FP16の2000 TFLOP、TF32の1000 TFLOP、およびFP64コンピューティングパフォーマンスの60TFLOPを提供します。これらの記録破りの数字は、それ以前に登場した他のすべてのHPCアクセラレーターを打ち負かします。比較のために、これはNVIDIA独自のA100 GPUより3.3倍高速であり、FP64コンピューティングではAMDのInstinct MI 250Xより28%高速です。FP16コンピューティングでは、H100 GPUはA100の3倍、文字通りボンカーであるMI250Xの5.2倍高速です。

カットダウンモデルであるPCIe 製品は、最近、日本で3万ドル以上で発表されたため、より強力な構成のSXMバリアントは簡単に約USD$50の費用がかかると想像できます。

NVIDIA Ampere GA100 GPU Based Tesla A100 Specs

NVIDIA Tesla Graphics CardNVIDIA H100 (SMX5)NVIDIA H100 (PCIe)NVIDIA A100 (SXM4)NVIDIA A100 (PCIe4)Tesla V100S (PCIe)Tesla V100 (SXM2)Tesla P100 (SXM2)Tesla P100 (PCIe)Tesla M40 (PCIe)Tesla K40 (PCIe)
GPUGH100 (Hopper)GH100 (Hopper)GA100 (Ampere)GA100 (Ampere)GV100 (Volta)GV100 (Volta)GP100 (Pascal)GP100 (Pascal)GM200 (Maxwell)GK110 (Kepler)
Process Node4nm4nm7nm7nm12nm12nm16nm16nm28nm28nm
Transistors80 Billion80 Billion54.2 Billion54.2 Billion21.1 Billion21.1 Billion15.3 Billion15.3 Billion8 Billion7.1 Billion
GPU Die Size814mm2814mm2826mm2826mm2815mm2815mm2610 mm2610 mm2601 mm2551 mm2
SMs132114108108808056562415
TPCs66575454404028282415
FP32 CUDA Cores Per SM128128646464646464128192
FP64 CUDA Cores / SM128128323232323232464
FP32 CUDA Cores168961459269126912512051203584358430722880
FP64 CUDA Cores168961459234563456256025601792179296960
Tensor Cores528456432432640640N/AN/AN/AN/A
Texture Units528456432432320320224224192240
Boost ClockTBDTBD1410 MHz1410 MHz1601 MHz1530 MHz1480 MHz1329MHz1114 MHz875 MHz
TOPs (DNN/AI)2000 TOPs1600 TOPs1248 TOPs1248 TOPs130 TOPs125 TOPsN/AN/AN/AN/A
4000 TOPs3200 TOPs2496 TOPs with Sparsity2496 TOPs with Sparsity
FP16 Compute2000 TFLOPs1600 TFLOPs312 TFLOPs
624 TFLOPs with Sparsity
312 TFLOPs 624 TFLOPs with Sparsity32.8 TFLOPs30.4 TFLOPs21.2 TFLOPs18.7 TFLOPsN/AN/A
FP32 Compute1000 TFLOPs800 TFLOPs156 TFLOPs (19.5 TFLOPs standard)156 TFLOPs (19.5 TFLOPs standard)16.4 TFLOPs15.7 TFLOPs10.6 TFLOPs10.0 TFLOPs6.8 TFLOPs5.04 TFLOPs
FP64 Compute60 TFLOPs48 TFLOPs19.5 TFLOPs (9.7 TFLOPs standard)19.5 TFLOPs (9.7 TFLOPs standard)8.2 TFLOPs7.80 TFLOPs5.30 TFLOPs4.7 TFLOPs0.2 TFLOPs1.68 TFLOPs
Memory Interface5120-bit HBM35120-bit HBM2e6144-bit HBM2e6144-bit HBM2e4096-bit HBM24096-bit HBM24096-bit HBM24096-bit HBM2384-bit GDDR5384-bit GDDR5
Memory SizeUp To 80 GB HBM3 @ 3.0 GbpsUp To 80 GB HBM2e @ 2.0 GbpsUp To 40 GB HBM2 @ 1.6 TB/s Up To 80 GB HBM2 @ 1.6 TB/sUp To 40 GB HBM2 @ 1.6 TB/s Up To 80 GB HBM2 @ 2.0 TB/s16 GB HBM2 @ 1134 GB/s16 GB HBM2 @ 900 GB/s16 GB HBM2 @ 732 GB/s16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s24 GB GDDR5 @ 288 GB/s12 GB GDDR5 @ 288 GB/s
L2 Cache Size51200 KB51200 KB40960 KB40960 KB6144 KB6144 KB4096 KB4096 KB3072 KB1536 KB
TDP700W350W400W250W250W300W300W250W250W235W

(Source:wccftech)

関連記事

  1. NVIDIA が Blackwell GPU を数百万個出荷、TSMC…

  2. NVIDIA GTC 2024、CEO Jensen Huang氏の基…

  3. NVIDIA は AI 市場の激しい競争に対してハードウェアとソフトウ…

  4. Intel Xe2 グラフィックス アーキテクチャを搭載した Batt…

  5. Intel Meteor Lake GPU は、GTX 1650 Ti…

  6. NVIDIA、最先端の量子スーパーコンピューター ABCI-Q で日本…

  7. 世界のスーパーコンピューターTop500のリストでは、AMDが121台…

  8. NVIDIAとIntelは、Hopper H100 GPUと第4世代 …

  9. NVIDIA Computex 2023について、AI、強力な GH2…

  10. NVIDIA は進行中の AI 戦争にMeta の主任研究員が武器を供…

  11. NVIDIA の次世代 DGX AI システムには液体冷却が搭載される…

  12. Maxon、Redshift に AMD Radeon Pro GPU…

コメント

  • コメント (0)

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。

PAGE TOP