NVIDIA Ada Lovelace’GeForce RTX 40’ゲーミングGPU詳細、ROP2倍、大容量L2キャッシュ、Ampereより50%増加のFP32ユニット、第4世代Tensorと第3世代RTコア搭載

GeForceRTX40シリーズグラフィックスカードに電力を供給するNVIDIA Ada Lovelace Gaming GPUに関する詳細が明らかになりました。新しい情報はKopte7kimiからのものであり、次世代アーキテクチャのブロック図について説明しています。

NVIDIA GeForce Ada Lovelace GPU SMブロック図詳細は、ゲーマーにとってこれまで以上に大きくて優れ魅力的

NVIDIA AdaLovelace GPUアーキテクチャはもはや謎ではありません。GeForce RTX40シリーズグラフィックスカード用の次世代AD10*シリーズSKUに電力を供給する特定の構成を学習し、ラインナップの仕様のリークも確認しました。さて、次世代グラフィックスチップ自体について純粋に話す時が来ました。

NVIDIA AD102 ‘Ada Lovelace’ Gaming GPU ‘SM’ Block Diagram (Image Credits: Kopite7kimi)
NVIDIA GA102 ‘Ampere’ Gaming GPU ‘SM’ Block Diagram

GPU構成から始めて、Kopite7kimiはトップのAD102GPUをグリーンチームの他のさまざまなGPUと比較します。これらには、ゲームに焦点を合わせたAmpereGA102とTuringTU102が含まれ、HPCに焦点を合わせたHopperGH100とAmpereGA100もリストに追加されています。HPCに焦点を当てた設計は消費者中心の製品とは大きく異なるため、AD102をその前身のゲームとのみ比較します。

NVIDIA Ada Lovelace AD102 GPUは、最大12個のGPC(グラフィックスプロセッシングクラスタ)を備えています。これは、7つのGPCのみを備えたGA102と比較して70%の増加です。各GPUは、既存のチップと同じ構成である6つのTPCと2つのSMで構成されます。各SM(ストリーミングマルチプロセッサ)は、GA102GPUと同じ4つのサブコアを収容します。変更されたのは、FP32とINT32のコア構成です。各サブコアには128個のFP32ユニットが含まれますが、FP32 + INT32ユニットの合計は192個になります。これは、FP32ユニットがIN32ユニットと同じサブコアを共有していないためです。128個のFP32コアは、64個のINT32コアとは別のものです。なので、合計で、各サブコアは128 FP32と64 INT32ユニットで構成され、合計192ユニットになります。各SMには、合計512のFP32ユニットと256のINT32ユニット、合計768のユニットがあります。また、合計24個のSMユニット(GPCごとに2個)があるため、12,288個のFP32ユニットと6,144個のINT32ユニット、合計18,432個のコアを検討しています。各SMには、SMごとに64ラップするための2つのラップスケジュール(32スレッド/ CLK)も含まれます。これは、コア(FP32 + INT32)で50%の増加であり、GA102 GPUと比較してラップ/スレッドで33%の増加です。

NVIDIA Ada Lovelace GPU Specs 'Preliminary'

GPU NameAD102GA102TU102GA100GH100
GPC12 (Per GPU)1.7x2x1.5x1.5x
TPC6 (Per GPC)SameSame0.75x0.67x
SM2 (Per TPC)SameSameSameSame
Sub-Core4 (Per SM)SameSameSameSame
FP32128 (Per SM)Same2x2xSame
FP32+INT32192 (Per SM)1.5x1.5x1.5xSame
Warps64 (Per SM)1.33x2xSameSame
Threads2048 (Per SM)1.33x2xSameSame
L1 Cache192 KB (Per SM)1.5x2xSame0.75x
L2 Cache96 MB (Per GPU)16x16x2.4x1.6x
ROPs32 (Per GPC)2x2x2x2x

キャッシュに移ると、これはNVIDIAが既存のAmpere GPUを大幅に強化したもう1つのセグメントです。Ada Lovelace GPUは、SMごとに192 KBのL1キャッシュをパックします。これは、Ampereよりも50%増加します。これは、最上位のAD102GPUに合計4.5MBのL1キャッシュがあります。リークに記載されているように、L2キャッシュは96MBに増加します。これは、わずか6MBのL2キャッシュをホストするAmpere GPUの16倍の増加です。キャッシュはGPU全体で共有されます。

最後に、ROPもGPCあたり32に増加し、Ampereの2倍に増加します。次世代のフラッグシップで最大384ROPを見ているのに対し、最速のAmpere GPUであるRTX3090Tiではわずか112ROPです。また、最新の第4世代Tensorおよび第3世代RT(レイトレーシング)コアがAda Lovelace GPUに注入され、DLSSおよびレイトレーシングのパフォーマンスを次のレベルに引き上げるのに役立ちます。全体として、Ada Lovelace AD102GPUは以下を提供します。

  • 2x GPC(対Ampere)
  • コアが50%多い(対Ampere)
  • L1キャッシュが50%増加(対Ampere)
  • 16倍以上のL2キャッシュ(対Ampere)
  • ROPを2倍にする(対Ampere)
  • 第4世代Tensorと第3世代RTコア

2〜3 GHzの範囲と言われるクロック速度は方程式に含まれないため、Ampereと比較してコアあたりのパフォーマンスを向上させる上でも主要な役割を果たします。次世代のAda LovelaceゲーミングGPUを搭載したNVIDIA GeForce RTX 40シリーズグラフィックスカードは、2022年の後半に発売される予定であり、Hopper H100 GPUと同じTSMC 4Nプロセスノードを利用すると言われています。

NVIDIA CUDA GPU (RUMORED) Preliminary

GPUTU102GA102AD102
Flagship SKURTX 2080 TiRTX 3090 TiRTX 4090?
ArchitectureTuringAmpereAda Lovelace
ProcessTSMC 12nm NFFSamsung 8nmTSMC 4N?
Die Size754mm2628mm2~600mm2
Graphics Processing Clusters (GPC)6712
Texture Processing Clusters (TPC)364272
Streaming Multiprocessors (SM)7284144
CUDA Cores46081075218432
L2 Cache6 MB6 MB96 MB
Theoretical TFLOPs16 TFLOPs40 TFLOPs~90 TFLOPs?
Memory TypeGDDR6GDDR6XGDDR6X
Memory Capacity11 GB (2080 Ti)24 GB (3090 Ti)24 GB (4090?)
Memory Speed14 Gbps21 Gbps24 Gbps?
Memory Bandwidth616 GB/s1.008 GB/s1152 GB/s?
Memory Bus384-bit384-bit384-bit
PCIe InterfacePCIe Gen 3.0PCIe Gen 4.0PCIe Gen 4.0
TGP250W350W600W?
ReleaseSep. 2018Sept. 202H 2022 (TBC)

(Source:wccftech)

関連記事



*
*
* (公開されません)