(Source:wccftech)
AMDは、MCMグラフィックアーキテクチャを搭載した最初のチップとなるInstinct MI200 GPUアクセラレータを発売しようとしていますが、CDNA3アーキテクチャを搭載した次世代のInstinct MI300は、クアッドMCM設計でそれを吹き飛ばそうとしているようです。
AMD Instinct MI300は、CDNA3グラフィックスアーキテクチャに基づく4つのMCMGPUを搭載すると噂
CDNA2アーキテクチャを備えたAMD Instinct MI200アクセラレータは、同じパッケージに2つのGPUダイを搭載することが期待されています。これらはInfinity Fabric相互接続によって接続され、2つのGPU間の多層キャッシュとして機能する別個のダイも備えています。各グラフィックスダイはGCDと呼ばれ、キャッシュダイはMCDと呼ばれます。
MI300 will feature 4 GCDs 🧐
— Kepler (@Kepler_L2) September 7, 2021
Instinct MI200パッケージには2つのCDNA2 GPUが搭載されますが、次世代のHPCアクセラレータはそれを2倍にするという噂があります。Kepler_L2によると、Instinct MI300は、まったく新しいCDNA3アーキテクチャに基づく4-GCD設計を特徴としています。今後のInstinctMI200は、ダイごとに128の計算ユニットを搭載する予定でしたが、先週の噂から110の計算ユニットに変更されました。合計220のコンピューティングユニットは14,080コアをネットし、正確な数を取得して4(Instinct MI300のGCDの数)を掛けると、440のコンピューティングユニットまたは非常識な28,160コアになります。
Komachiによって発見された最近のAMD ROCm Developer Toolsアップデートでは、最大4つのMCM GPUが確認されましたが、これらは単にAldebaran SKUです。以下にリストされているそれぞれの(一意のID)を持つ少なくとも4つのCDNA2を利用したInstinctアクセラレータが存在すると予想されます。この数は、各デバイスのダイの数ではなく、デバイス自体を表すことに注意してください。
- 0x7408
- 0x740C
- 0x740F
- 0x7410
これは、AMDがCDNA2からCDNA3に移行するときに何も変更を加えない場合に当てはまりますが、そんな事は考えにくいです。CDNA 3は、ArcturusやAldebaranのような別のVega派生物ではない改訂された新しいアーキテクチャが提供される事が濃厚です。GPUアーキテクチャは、新しいRDNA3チップ上の新しいWGP / SE配置、またはHPCセグメント向けに調整されたまったく新しい設計に似たレイアウトを使用する場合もあります。しかし、1つ確かなことは、これらのクアッドMCM GPUは間違いなく、実際に動作するのを待ちきれないものです。
AMD Radeon Instinct Accelerators 2020
Accelerator Name | AMD Radeon Instinct MI6 | AMD Radeon Instinct MI8 | AMD Radeon Instinct MI25 | AMD Radeon Instinct MI50 | AMD Radeon Instinct MI60 | AMD Instinct MI100 | AMD Instinct MI200 | AMD Instinct MI300 |
---|---|---|---|---|---|---|---|---|
GPU Architecture | Polaris 10 | Fiji XT | Vega 10 | Vega 20 | Vega 20 | Arcturus (CDNA 1) | Aldebaran (CDNA 2) | TBA (CDNA 3) |
GPU Process Node | 14nm FinFET | 28nm | 14nm FinFET | 7nm FinFET | 7nm FinFET | 7nm FinFET | Advanced Process Node | Advanced Process Node |
GPU Dies | 1 (Monolithic) | 1 (Monolithic) | 1 (Monolithic) | 1 (Monolithic) | 1 (Monolithic) | 1 (Monolithic) | 2 (MCM) | 4 (MCM)? |
GPU Cores | 2304 | 4096 | 4096 | 3840 | 4096 | 7680 | 14,080? | 28,160? |
GPU Clock Speed | 1237 MHz | 1000 MHz | 1500 MHz | 1725 MHz | 1800 MHz | ~1500 MHz | TBA | TBA |
FP16 Compute | 5.7 TFLOPs | 8.2 TFLOPs | 24.6 TFLOPs | 26.5 TFLOPs | 29.5 TFLOPs | 185 TFLOPs | TBA | TBA |
FP32 Compute | 5.7 TFLOPs | 8.2 TFLOPs | 12.3 TFLOPs | 13.3 TFLOPs | 14.7 TFLOPs | 23.1 TFLOPs | TBA | TBA |
FP64 Compute | 384 GFLOPs | 512 GFLOPs | 768 GFLOPs | 6.6 TFLOPs | 7.4 TFLOPs | 11.5 TFLOPs | TBA | TBA |
VRAM | 16 GB GDDR5 | 4 GB HBM1 | 16 GB HBM2 | 16 GB HBM2 | 32 GB HBM2 | 32 GB HBM2 | 64/128 GB HBM2e? | TBA |
Memory Clock | 1750 MHz | 500 MHz | 945 MHz | 1000 MHz | 1000 MHz | 1200 MHz | TBA | TBA |
Memory Bus | 256-bit bus | 4096-bit bus | 2048-bit bus | 4096-bit bus | 4096-bit bus | 4096-bit bus | 8192-bit | TBA |
Memory Bandwidth | 224 GB/s | 512 GB/s | 484 GB/s | 1 TB/s | 1 TB/s | 1.23 TB/s | ~2 TB/s? | TBA |
Form Factor | Single Slot, Full Length | Dual Slot, Half Length | Dual Slot, Full Length | Dual Slot, Full Length | Dual Slot, Full Length | Dual Slot, Full Length | Dual Slot, Full Length / OAM | TBA |
Cooling | Passive Cooling | Passive Cooling | Passive Cooling | Passive Cooling | Passive Cooling | Passive Cooling | Passive Cooling | TBA |
TDP | 150W | 175W | 300W | 300W | 300W | 300W | TBA | TBA |