ジュールズによれば、NVIDIA A100 TensorコアGPUはOctaBenchで446のスコアを記録しました。また、RTXがオフの場合でも、このスコアはOctaneRenderのTuring GPUよりも平均43%速いと述べています。ここで比較したTuringの結果はRTXを利用しており、フレームレートの大幅な低下を引き起こすゲームとは異なり、利用可能なレイトレーシングハードウェアを使用してシーンをより速くレンダリングおよび終了できるため、OctaRenderer内でRTXを有効にするとパフォーマンスが向上します。NVIDIA Ampere A100 GPUとの比較にどの正確なTuring GPUが使用されたかは明記されていませんが、テストされたすべてのカードの完全な平均ベンチを見ると、さまざまな興味深い結果が得られます。平均して、A100の前身であるTesla V100は約20%遅いですが、奇妙な理由により、Titan Vはわずか11%遅いだけです。これは、Titan RTXがA100 GPUより38%遅いことを考えると驚くべきことです。これに対する主な答えは、Titan VがTesla V100と同じGV100 GPUを活用しており、Turing GPUがゲームとGP-GPUの使用に対してより最適化されているのに対し、このデータセンターとクラウドスケールベンチマークにより最適化できるという事実である可能性があります。しかし、再び、会社のCEOは、これが特定のワークロードで記録された史上最速のGPUであり、NVIDIAのA100 GPUアクセラレータにとって大きな偉業であると述べています。

NVIDIA A100は、これまでに製造された最大の7nmチップであり、単一のダイ内に搭載された巨大な540億個のトランジスタを特徴としています。A100には、初期の歩留まりのために大幅に削減された構成が付属していますが、Tesla V100と同様に、歩留まりが向上すると、より多くのコアを持つより高いビンバージョンが表示され、この特定のベンチマークのパフォーマンスがさらに向上します。
The full implementation of the NVIDIA Ampere GA100 GPU includes the following units
- 8 GPC、8 TPC / GPC、2 SM / TPC、16 SM / GPC、フルGPUあたり128 SM
- GPUシートあたり64個のFP32 CUDAコア/ SM、8192個のFP32 CUDAコア
- フルGPUあたり4つの第3世代Tensorコア/ SM、512第3世代Tensorコア
- 6 HBM2スタック、12 512ビットメモリコントローラー
The A100 Tensor Core GPU implementation of the NVIDIA Ampere GA100 GPU includes the following units
- 7 GPC、7または8 TPC / GPC、2 SM / TPC、最大16 SM / GPC、108 SM
- 64個のFP32 CUDAコア/ SM、6912個のGPU用FP32 CUDAコア
- 4つの第3世代Tensorコア/ SM、GPUあたり432の第3世代Tensorコア
- 5 HBM2スタック、10 512ビットメモリコントローラー
RTXを有効にしたAmpereカードが市場に投入されて初めて、パフォーマンスメトリックがどのようになるかを想像することができます。この特定のベンチマークで問題が解決しない場合は、Ampere GeForce RTX 30シリーズカードが対応するHPCに簡単に近づくことがわかります。
関連記事
-
-
-
-
-
-
-
-
-
-
-
-