謎のNVIDIA「GPU-N」は、134のSM、8576のコア、2.68 TB / sの帯域幅を装った次世代ホッパーGH100であり、シミュレートされたパフォーマンスベンチマークが示されています

(Source:wccftech)

次世代のHopper GH100チップの最初の外観となる可能性のあるGPU-Nとして知られる謎のNVIDIA GPUが、グリーンチームによって公開された新しい研究論文で明らかになりました(TwitterユーザーのRedfireによって発見されました)。

NVIDIA Research PaperがMCMデザインと8576コアを備えた「GPU-N」について語る、これは次世代Hopper GH100でしょうか?

研究論文「コンポーザブルオンパッケージアーキテクチャによるGPUドメインスペシャライゼーション」では、ディープラーニングのパフォーマンスを向上させるために低精度の行列演算スループットを最大化するための最も実用的なソリューションとしての次世代GPU設計について説明しています。「GPU-N」とそれぞれのCOPA設計について、可能な仕様とシミュレートされたパフォーマンス結果とともに説明しました。

– Computer systems organization -> Processors and memory architectures.Neural networks.
– Computer systems organization -> Processors and memory architectures.Neural networks.

「GPU-N」は、134 SMユニット(A100の104 SMユニットに対して)を備えていると言われています。これにより、合計8576コア、つまり現在のAmpere A100ソリューションよりも24%増加します。チップは1.4GHzで測定されています。これは、AmpereA100およびVoltaV100と同じ理論上のクロック速度です(最終的なクロックと混同しないでください)。その他の仕様には、60 MBのL2キャッシュ、Ampere A100よりも50%増加、および6.3 TB/sまで拡張可能な2.68TB/sのDRAM帯域幅が含まれます。HBM2eのDRAM容量は100GBであり、COPAの実装により最大233GBまで拡張できます。3.5Gbpsのクロック速度で6144ビットバスインターフェースを中心に構成されています。

ConfigurationNVIDIA V100NVIDIA A100GPU-N
SMs80108134
GPU frequency (GHz)1.41.41.4
FP32 (TFLOPS)15.719.524.2
FP16 (TFLOPS)125312779
L2 cache (MB)64060
DRAM BW (GB/s)90015552687
DRAM Capacity (GB)1640100

パフォーマンスの数値を見ると、「GPU-N」(おそらくHopper GH100)はFP32の24.2 TFLOP(A100の24%増加)と779 TFLOP FP16(A100の2.5倍の増加)を生成します。 A100以上のGH100で噂されています。Instinct MI250Xアクセラレータ上のAMDのCDNA2’Aldebaran ‘GPUと比較すると、FP32のパフォーマンスは半分未満ですが(95.7TFLOP対24.2TFLOP)、FP16のパフォーマンスは2.15倍高くなっています。

以前の情報から、NVIDIAのH100アクセラレータはMCMソリューションに基づいており、TSMCの5nmプロセスノードを利用することがわかっています。Hopperには2つの次世代GPUモジュールがあるはずなので、合計288のSMユニットを見ています。各SMに搭載されているコアの数がわからないため、コア数の概要を示すことはできませんが、SMあたり64コアに固執する場合は、18,432コアが得られます。これは、完全なGA100GPU構成。NVIDIAは、Hopper GPU内でより多くのFP64、FP16、およびTensorコアを活用することもできます。これにより、パフォーマンスが大幅に向上します。そしてそれは、1:1FP64を搭載することが期待されているIntelのPonteVecchioに匹敵するために必要になるでしょう。

最終的な構成では、各GPUモジュールで有効になっている144個のSMユニットのうち134個が付属する可能性があります。そのため、1つのGH100ダイが動作していることを確認している可能性があります。ただし、NVIDIAがGPUスパース性を使用せずにMI200と同じFP32またはFP64フロップに到達する可能性はほとんどありません。

しかし、NVIDIAはおそらく彼らの袖に秘密兵器を持っているかもしれません、そしてそれはHopperのCOPAベースのGPU実装でしょう。NVIDIAは、次世代アーキテクチャに基づく2つのドメイン専用COPA-GPUについて説明しています。1つはHPC用で、もう1つはDLセグメント用です。HPC製品は、MCMGPU設計とそれぞれのHBM / MC + HBM(IO)チップレットで構成される非常に標準的なアプローチを特徴としていますが、DL製品は物事が面白くなり始めるところです。DL製品は、GPUモジュールと相互接続された完全に独立したダイに巨大なキャッシュを収容します。

ArchitectureLLC CapacityDRAM BWDRAM Capacity
Configuration(MB)(TB/s)(GB)
GPU-N602.7100
COPA-GPU-19602.7100
COPA-GPU-29604.5167
COPA-GPU-319202.7100
COPA-GPU-419204.5167
COPA-GPU-519206.3233
Perfect L2infiniteinfiniteinfinite

最大960 / 1920MBのLLC(Last-Level-Cache)、最大233GBのHBM2eDRAM容量、および最大6.3 TB / sの帯域幅を備えたさまざまな製品が概説されています。これらはすべて理論上のものですが、NVIDIAが現在それらについて議論していることを考えると、GTC 2022での完全な発表中に、そのような設計のHopper製品が見られる可能性があります。

NVIDIA Hopper GH100 Preliminary Specs

NVIDIA Tesla Graphics CardTesla K40 (PCI-Express)Tesla M40 (PCI-Express)Tesla P100 (PCI-Express)Tesla P100 (SXM2)Tesla V100 (SXM2)NVIDIA A100 (SXM4)NVIDIA H100 (SMX4?)
GPUGK110 (Kepler)GM200 (Maxwell)GP100 (Pascal)GP100 (Pascal)GV100 (Volta)GA100 (Ampere)GH100 (Hopper)
Process Node28nm28nm16nm16nm12nm7nm5nm
Transistors7.1 Billion8 Billion15.3 Billion15.3 Billion21.1 Billion54.2 BillionTBD
GPU Die Size551 mm2601 mm2610 mm2610 mm2815mm2826mm2TBD
SMs1524565680108134 (Per Module)
TPCs152428284054TBD
FP32 CUDA Cores Per SM1921286464646464?
FP64 CUDA Cores / SM6443232323232?
FP32 CUDA Cores2880307235843584512069128576 (Per Module) 17152 (Complete)
FP64 CUDA Cores9609617921792256034564288 (Per Module)? 8576 (Complete)?
Tensor CoresN/AN/AN/AN/A640432TBD
Texture Units240192224224320432TBD
Boost Clock875 MHz1114 MHz1329MHz1480 MHz1530 MHz1410 MHz~1400 MHz
TOPs (DNN/AI)N/AN/AN/AN/A125 TOPs1248 TOPs 2496 TOPs with SparsityTBD
FP16 ComputeN/AN/A18.7 TFLOPs21.2 TFLOPs30.4 TFLOPs312 TFLOPs 624 TFLOPs with Sparsity779 TFLOPs (Per Module)? 1558 TFLOPs with Sparsity (Per Module)?
FP32 Compute5.04 TFLOPs6.8 TFLOPs10.0 TFLOPs10.6 TFLOPs15.7 TFLOPs19.4 TFLOPs 156 TFLOPs With Sparsity24.2 TFLOPs (Per Module)? 193.6 TFLOPs With Sparsity?
FP64 Compute1.68 TFLOPs0.2 TFLOPs4.7 TFLOPs5.30 TFLOPs7.80 TFLOPs19.5 TFLOPs (9.7 TFLOPs standard)24.2 TFLOPs (Per Module)? (12.1 TFLOPs standard)?
Memory Interface384-bit GDDR5384-bit GDDR54096-bit HBM24096-bit HBM24096-bit HBM26144-bit HBM2e6144-bit HBM2e
Memory Size12 GB GDDR5 @ 288 GB/s24 GB GDDR5 @ 288 GB/s16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s16 GB HBM2 @ 732 GB/s16 GB HBM2 @ 900 GB/sUp To 40 GB HBM2 @ 1.6 TB/s Up To 80 GB HBM2 @ 1.6 TB/sUp To 100 GB HBM2e @ 3.5 Gbps
L2 Cache Size1536 KB3072 KB4096 KB4096 KB6144 KB40960 KB81920 KB
TDP235W250W250W300W300W400W~450-500W

関連記事