NVIDIAがGTC 2020に先駆けて世界最大のグラフィックスカードAmpere GPU搭載のDGX A100スーパーコンピューティングシステムを発表

2020.05.13

NVIDIAは、2020年5月14日のGTC 2020で発表される予定の次世代のAmpere GPU搭載DGX A100システムのティーザーを投稿しました。システムへの最初の参照は1週間前に発見されましたが、今週、NVIDIAからHPCが発表されました。

NVIDIAのCEOであるJensen Huangが、HPC向けの次世代Ampere GPU搭載DGX A100システムを紹介

DGXシステムの特定の名前は、言うべきことがたくさんあるDGX A100です。DGXシステムは、ディープラーニングとHPCコミュニティ専用に設計されており、ワークステーションフォームファクター内でスーパーコンピューティング機能を提供します。NVIDIAは、PascalおよびVolta GPUをベースにしたDGXソリューションをリリースしましたが、差し迫ったAmpere GPUのリリースに伴い、新しいDGXソリューションを設計する必要があります。

以下に示すティーザービデオでは、NVIDIAのCEOであるJensen Huangが、オーブンから取り出したばかりの巨大なDGX A100メインボードを取り出しているのを見ることができます。「What’s Jensen been cooking」というタイトルのビデオの後には、「オーブンから取り出したばかりの世界最大のグラフィックスカード」という説明が続きます。

DGXシステムのVoltaラインは合理化され、HPCユーザーにより多くのオプションを提供しました。合計4つのTesla V100 GPUを特徴とするDGXステーションから、NVIDIAが「世界最大のGPU」と呼んだ16 Tesla V100ハウジングのDGX-2モンスターまで、さまざまなバリエーションがありました。Ampere GPUにより、NVIDIAは最新のDGX A100システムをリリースします。その名前は、システムがGA100 GPUに基づいていることを明確にしています。GA100 GPUは、Ampereラインナップの中で最大のチップであり、NVIDIA GA100チップで見られると予想されるフラグシップ128 SM構成の1つを備えています。Jensenが調理したばかりの特定のDGX A100メインボードには、合計8つ、AmpereのGPUが搭載されており、大規模なヒートシンクが装備されています。DGX A100システムはサーバー/ HPC環境向けに設計されているため、パッシブ冷却されることになります。GPUに隣接する6つのヒートシンクがあり、GPUからGPUおよびGPUからCPUへの通信用の相互接続スイッチを備えている可能性があります。明らかにすべきことはたくさんあるので、 Jensenが自身で詳細を明らかにするまであと2日待ちましょう。NVIDIAは、より伝統的な方法で、DGXシステムのAmpereシリーズを開始し、最初に8 Tesla GPU構成を提供し、新しいAmpereチップの歩留まりが向上するにつれて、より大きく高密度な部品に移行する可能性があります。

NVIDIA Tesla Graphics Cards Comparison

Tesla Graphics Card Name	NVIDIA Tesla M2090	NVIDIA Tesla K40	NVIDIA Telsa K80	NVIDIA Tesla P100	NVIDIA Tesla V100	NVIDIA Tesla Next-Gen #1	NVIDIA Tesla Next-Gen #2	NVIDIA Tesla Next-Gen #3
GPU Architecture	Fermi	Kepler	Maxwell	Pascal	Volta	Ampere?	Ampere?	Ampere?
GPU Process	40nm	28nm	28nm	16nm	12nm	7nm?	7nm?	7nm?
GPU Name	GF110	GK110	GK210 x 2	GP100	GV100	GA100?	GA100?	GA100?
Die Size	520mm2	561mm2	561mm2	610mm2	815mm2	TBD	TBD	TBD
Transistor Count	3.00 Billion	7.08 Billion	7.08 Billion	15 Billion	21.1 Billion	TBD	TBD	TBD
CUDA Cores	512 CCs (16 CUs)	2880 CCs (15 CUs)	2496 CCs (13 CUs) x 2	3840 CCs	5120 CCs	6912 CCs	7552 CCs	7936 CCs
Core Clock	Up To 650 MHz	Up To 875 MHz	Up To 875 MHz	Up To 1480 MHz	Up To 1455 MHz	1.08 GHz (Preliminary)	1.11 GHz (Preliminary)	1.11 GHz (Preliminary)
FP32 Compute	1.33 TFLOPs	4.29 TFLOPs	8.74 TFLOPs	10.6 TFLOPs	15.0 TFLOPs	~15 TFLOPs (Preliminary)	~17 TFLOPs (Preliminary)	~18 TFLOPs (Preliminary)
FP64 Compute	0.66 TFLOPs	1.43 TFLOPs	2.91 TFLOPs	5.30 TFLOPs	7.50 TFLOPs	TBD	TBD	TBD
VRAM Size	6 GB	12 GB	12 GB x 2	16 GB	16 GB	48 GB	24 GB	32 GB
VRAM Type	GDDR5	GDDR5	GDDR5	HBM2	HBM2	HBM2e	HBM2e	HBM2e
VRAM Bus	384-bit	384-bit	384-bit x 2	4096-bit	4096-bit	4096-bit?	3072-bit?	4096-bit?
VRAM Speed	3.7 GHz	6 GHz	5 GHz	737 MHz	878 MHz	1200 MHz	1200 MHz	1200 MHz
Memory Bandwidth	177.6 GB/s	288 GB/s	240 GB/s	720 GB/s	900 GB/s	1.2 TB/s?	1.2 TB/s?	1.2 TB/s?
Maximum TDP	250W	300W	235W	300W	300W	TBD	TBD	TBD