謎のNVIDIA「GPU-N」は、134のSM、8576のコア、2.68 TB / sの帯域幅を装った次世代ホッパーGH100であり、シミュレートされたパフォーマンスベンチマークが示されています

2021.12.14

次世代のHopper GH100チップの最初の外観となる可能性のあるGPU-Nとして知られる謎のNVIDIA GPUが、グリーンチームによって公開された新しい研究論文で明らかになりました（TwitterユーザーのRedfireによって発見されました）。

NVIDIA Research PaperがMCMデザインと8576コアを備えた「GPU-N」について語る、これは次世代Hopper GH100でしょうか？

研究論文「コンポーザブルオンパッケージアーキテクチャによるGPUドメインスペシャライゼーション」では、ディープラーニングのパフォーマンスを向上させるために低精度の行列演算スループットを最大化するための最も実用的なソリューションとしての次世代GPU設計について説明しています。「GPU-N」とそれぞれのCOPA設計について、可能な仕様とシミュレートされたパフォーマンス結果とともに説明しました。

– Computer systems organization -> Processors and memory architectures.Neural networks.

– Computer systems organization -> Processors and memory architectures.Neural networks.

「GPU-N」は、134 SMユニット（A100の104 SMユニットに対して）を備えていると言われています。これにより、合計8576コア、つまり現在のAmpere A100ソリューションよりも24％増加します。チップは1.4GHzで測定されています。これは、AmpereA100およびVoltaV100と同じ理論上のクロック速度です（最終的なクロックと混同しないでください）。その他の仕様には、60 MBのL2キャッシュ、Ampere A100よりも50％増加、および6.3 TB/sまで拡張可能な2.68TB/sのDRAM帯域幅が含まれます。HBM2eのDRAM容量は100GBであり、COPAの実装により最大233GBまで拡張できます。3.5Gbpsのクロック速度で6144ビットバスインターフェースを中心に構成されています。

Configuration	NVIDIA V100	NVIDIA A100	GPU-N
SMs	80	108	134
GPU frequency (GHz)	1.4	1.4	1.4
FP32 (TFLOPS)	15.7	19.5	24.2
FP16 (TFLOPS)	125	312	779
L2 cache (MB)	6	40	60
DRAM BW (GB/s)	900	1555	2687
DRAM Capacity (GB)	16	40	100

パフォーマンスの数値を見ると、「GPU-N」（おそらくHopper GH100）はFP32の24.2 TFLOP（A100の24％増加）と779 TFLOP FP16（A100の2.5倍の増加）を生成します。 A100以上のGH100で噂されています。Instinct MI250Xアクセラレータ上のAMDのCDNA2’Aldebaran ‘GPUと比較すると、FP32のパフォーマンスは半分未満ですが（95.7TFLOP対24.2TFLOP）、FP16のパフォーマンスは2.15倍高くなっています。

以前の情報から、NVIDIAのH100アクセラレータはMCMソリューションに基づいており、TSMCの5nmプロセスノードを利用することがわかっています。Hopperには2つの次世代GPUモジュールがあるはずなので、合計288のSMユニットを見ています。各SMに搭載されているコアの数がわからないため、コア数の概要を示すことはできませんが、SMあたり64コアに固執する場合は、18,432コアが得られます。これは、完全なGA100GPU構成。NVIDIAは、Hopper GPU内でより多くのFP64、FP16、およびTensorコアを活用することもできます。これにより、パフォーマンスが大幅に向上します。そしてそれは、1：1FP64を搭載することが期待されているIntelのPonteVecchioに匹敵するために必要になるでしょう。

最終的な構成では、各GPUモジュールで有効になっている144個のSMユニットのうち134個が付属する可能性があります。そのため、1つのGH100ダイが動作していることを確認している可能性があります。ただし、NVIDIAがGPUスパース性を使用せずにMI200と同じFP32またはFP64フロップに到達する可能性はほとんどありません。

しかし、NVIDIAはおそらく彼らの袖に秘密兵器を持っているかもしれません、そしてそれはHopperのCOPAベースのGPU実装でしょう。NVIDIAは、次世代アーキテクチャに基づく2つのドメイン専用COPA-GPUについて説明しています。1つはHPC用で、もう1つはDLセグメント用です。HPC製品は、MCMGPU設計とそれぞれのHBM / MC + HBM（IO）チップレットで構成される非常に標準的なアプローチを特徴としていますが、DL製品は物事が面白くなり始めるところです。DL製品は、GPUモジュールと相互接続された完全に独立したダイに巨大なキャッシュを収容します。

Architecture	LLC Capacity	DRAM BW	DRAM Capacity
Configuration	(MB)	(TB/s)	(GB)
GPU-N	60	2.7	100
COPA-GPU-1	960	2.7	100
COPA-GPU-2	960	4.5	167
COPA-GPU-3	1920	2.7	100
COPA-GPU-4	1920	4.5	167
COPA-GPU-5	1920	6.3	233
Perfect L2	infinite	infinite	infinite

最大960 / 1920MBのLLC（Last-Level-Cache）、最大233GBのHBM2eDRAM容量、および最大6.3 TB / sの帯域幅を備えたさまざまな製品が概説されています。これらはすべて理論上のものですが、NVIDIAが現在それらについて議論していることを考えると、GTC 2022での完全な発表中に、そのような設計のHopper製品が見られる可能性があります。

NVIDIA Hopper GH100 Preliminary Specs

NVIDIA Tesla Graphics Card	Tesla K40　(PCI-Express)	Tesla M40　(PCI-Express)	Tesla P100　(PCI-Express)	Tesla P100 (SXM2)	Tesla V100 (SXM2)	NVIDIA A100 (SXM4)	NVIDIA H100 (SMX4?)
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (Pascal)	GP100 (Pascal)	GV100 (Volta)	GA100 (Ampere)	GH100 (Hopper)
Process Node	28nm	28nm	16nm	16nm	12nm	7nm	5nm
Transistors	7.1 Billion	8 Billion	15.3 Billion	15.3 Billion	21.1 Billion	54.2 Billion	TBD
GPU Die Size	551 mm2	601 mm2	610 mm2	610 mm2	815mm2	826mm2	TBD
SMs	15	24	56	56	80	108	134 (Per Module)
TPCs	15	24	28	28	40	54	TBD
FP32 CUDA Cores Per SM	192	128	64	64	64	64	64?
FP64 CUDA Cores / SM	64	4	32	32	32	32	32?
FP32 CUDA Cores	2880	3072	3584	3584	5120	6912	8576 (Per Module)　17152 (Complete)
FP64 CUDA Cores	960	96	1792	1792	2560	3456	4288 (Per Module)?　8576 (Complete)?
Tensor Cores	N/A	N/A	N/A	N/A	640	432	TBD
Texture Units	240	192	224	224	320	432	TBD
Boost Clock	875 MHz	1114 MHz	1329MHz	1480 MHz	1530 MHz	1410 MHz	~1400 MHz
TOPs (DNN/AI)	N/A	N/A	N/A	N/A	125 TOPs	1248 TOPs　2496 TOPs with Sparsity	TBD
FP16 Compute	N/A	N/A	18.7 TFLOPs	21.2 TFLOPs	30.4 TFLOPs	312 TFLOPs　624 TFLOPs with Sparsity	779 TFLOPs (Per Module)?　1558 TFLOPs with Sparsity (Per Module)?
FP32 Compute	5.04 TFLOPs	6.8 TFLOPs	10.0 TFLOPs	10.6 TFLOPs	15.7 TFLOPs	19.4 TFLOPs　156 TFLOPs With Sparsity	24.2 TFLOPs (Per Module)?　193.6 TFLOPs With Sparsity?
FP64 Compute	1.68 TFLOPs	0.2 TFLOPs	4.7 TFLOPs	5.30 TFLOPs	7.80 TFLOPs	19.5 TFLOPs　(9.7 TFLOPs standard)	24.2 TFLOPs (Per Module)?　(12.1 TFLOPs standard)?
Memory Interface	384-bit GDDR5	384-bit GDDR5	4096-bit HBM2	4096-bit HBM2	4096-bit HBM2	6144-bit HBM2e	6144-bit HBM2e
Memory Size	12 GB GDDR5 @ 288 GB/s	24 GB GDDR5 @ 288 GB/s	16 GB HBM2 @ 732 GB/s　12 GB HBM2 @ 549 GB/s	16 GB HBM2 @ 732 GB/s	16 GB HBM2 @ 900 GB/s	Up To 40 GB HBM2 @ 1.6 TB/s　Up To 80 GB HBM2 @ 1.6 TB/s	Up To 100 GB HBM2e @ 3.5 Gbps
L2 Cache Size	1536 KB	3072 KB	4096 KB	4096 KB	6144 KB	40960 KB	81920 KB
TDP	235W	250W	250W	300W	300W	400W	~450-500W