(Source:wccftech)
NVIDIAの次世代GPUはまもなく公開される予定です。残念な事に月末のGTCはオンラインのみのイベントに変更となりました。このためこれまでで最大のGPUを発表する事に対して悲観する必要はありません。数日前に2つの未リリースGPUの仕様がリークされていましたが、さらにTwitterで新しいSKUが発見されました。
NVIDIAの次世代GPUのパフォーマンスと仕様、最大8Kコアと48 GB HBM2eメモリを備えた究極のHPCパワーハウスのリーク
Ampereとコードネームが付けられたとされるNVIDIA次世代GPUアーキテクチャは、しばらくの間知られています。HPCおよびクラウドデータセンターのトップ組織で使用される予定の同社の最新Tesla GPUをさらに強化します。情報技術担当バイスプレジデントおよびインディアナ大学の最高情報責任者によると、今年の夏にビッグレッドスーパーコンピューターを導入すると、NVIDIAの次世代GPUが既存のVoltaベースのGPUに比べて75%のパフォーマンスを大幅に向上させることが明らかになりました。過去に聞いたこともありますが、GPUが最大50%のパフォーマンス向上と2倍の効率性を提供するという報告です。そこで、Geekbenchで発見された最新のGPUの仕様について説明します。また、以前にリークされたパーツと比較して、すべてのバリアントから期待されるパフォーマンスの向上を確認します。これらのGPUは2019年10月と11月にずっとテストされたため、数か月間Geekbenchデータベースに隠れていましたが、これらはまだ初期のサンプルであるため、仕様に大きな変化が見られたことに注意してください。ここで注意すべきもう1つの点は、クロック速度が遅いことです。これは、前述したように初期の設計を示しています。
NVIDIAの次世代GPU#1の仕様とパフォーマンス
最初に話したGPUは、最近発見されたGPUです。NVIDIAのプロフェッショナルGPUアーキテクチャには、ストリーミングマルチプロセッサごとに64 CUDAコア設計が付属しているため、このGPUは7936 CUDAコアに等しい124の合計SMカウントを備えています。これは、Tesla V100の5120コアを超えるCUDAコアの55%の増加です。GPUの最大クロック速度は1.1 GHzであり、この最終化されていないクロックで、約17.5〜18 TFLOPのFP32馬力を供給します。1200 MHzで32 GBのHBM2eメモリクロッキングを搭載し、4096ビットのバスインターフェイスで動作します。私がHBM2eに言及する理由は、それが最新の標準であり、NVIDIAが発売時にHPCパーツで最も高度なメモリ標準を利用していることが知られているためです。
コアおよびメモリの仕様に加えて、GPUは32 MBのL2キャッシュをパックします。これは、わずか6 MBのL2キャッシュをパックするVolta GV100 GPUの5.33倍の増加です。膨大な量のキャッシュを考えると、長年の開発が続いているNVIDIAの次世代GPUでのパフォーマンスの大幅な向上とアーキテクチャの大幅な変更が期待できます。パフォーマンスに関しては、Geekbench 5のOpenCLベンチマーク(CUDA)でGPUが222377ポイントを獲得しています。プラットフォームはCUDA 8.0を実行しており、テスト時にGPUが完全に最適化されていなかった可能性が高いです。そうは言っても、このカードの仕様は文字通り非常識に見えるので、他の2つのバリエーションに取り掛かりましょう。
NVIDIAの次世代GPU#2仕様とパフォーマンス
2番目のGPUには、合計118個のSMまたは7552 CUDAコアが搭載されています。これは、80個のSMと合計24 MBのL2キャッシュに5120個のCUDAコアが詰め込まれたTesla V100よりもCUDAコアが47.5%増加したことです。また、このGPUは1.10 GHzの最大速度でクロックされ、1200 MHzのクロック速度で3072ビットのバスに沿って実行される24 GBのHBM2eメモリを備えています。これらの速度では、このチップは合計で約16.7 TFLOPの理論上の計算馬力を提供するはずですが、再び、クロック速度は間違いなく最終的に見えず、それより高くなる可能性があります。
Two Unknown Nvidia GPU
> 7552 Cuda cores (118 CUs)
> 1.11GHz core clock
> 24GB of memoryGB5 Compute score: 184096 (Open CL)https://t.co/rUFWACaxrg
> 6912 Cuda cores (108 CUs)
> 1.01GHz core clock
> 47GB of memoryGB5 Compute score: 141654 (Open CL)https://t.co/C1jnm3sZ0D pic.twitter.com/3JrW8LrnFj
— _rogame (@_rogame) February 28, 2020
この特定のGPUは、OpenCLとCUDA Computeの両方のベンチマークでテストされました。OpenCLベンチマークでは、チップは184096ポイントを獲得しましたが、CUDAベンチマークでは169368ポイントを獲得しました。124パーツと118パーツの両方のSMパーツはCUDA 8.0上で実行されていましたが、Geekbench 5ベンチマークに対してこれらのGPUがまだ完全に最適化されていないことがわかります。コア数にわずか5%の違いがあるにもかかわらず、両方の部分のスコアに大きな違いがあります。
NVIDIAの次世代GPU#3仕様とパフォーマンス
最後に、108 SMまたは6912 CUDAコアバリアントがあり、報告されているクロック速度は1.01 GHzであるか、3つのGPUの中で最も低速です。GPUにより、Tesla V100よりもCUDAコア数が35%増加し、46.8 GBのHBM2eメモリを搭載しているようです。これは、Geekbenchベンチマークが合計メモリをどのように認識するかに関するエラーである可能性があり、実際には48 GBである可能性があり、これはより理にかなっています。このGPU はGeekbench 5(CUDA)ベンチマークで141654ポイントを獲得しますが、これもまたクロック速度が遅いために最終スコアではありません。
NVIDIA Tesla Graphics Cards Comparison
Tesla Graphics Card Name | NVIDIA Tesla M2090 | NVIDIA Tesla K40 | NVIDIA Telsa K80 | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA Tesla Next-Gen #1 | NVIDIA Tesla Next-Gen #2 | NVIDIA Tesla Next-Gen #3 |
---|---|---|---|---|---|---|---|---|
GPU Architecture | Fermi | Kepler | Maxwell | Pascal | Volta | Ampere? | Ampere? | Ampere? |
GPU Process | 40nm | 28nm | 28nm | 16nm | 12nm | 7nm? | 7nm? | 7nm? |
GPU Name | GF110 | GK110 | GK210 x 2 | GP100 | GV100 | GA100? | GA100? | GA100? |
Die Size | 520mm2 | 561mm2 | 561mm2 | 610mm2 | 815mm2 | TBD | TBD | TBD |
Transistor Count | 3.00 Billion | 7.08 Billion | 7.08 Billion | 15 Billion | 21.1 Billion | TBD | TBD | TBD |
CUDA Cores | 512 CCs (16 CUs) | 2880 CCs (15 CUs) | 2496 CCs (13 CUs) x 2 | 3840 CCs | 5120 CCs | 6912 CCs | 7552 CCs | 7936 CCs |
Core Clock | Up To 650 MHz | Up To 875 MHz | Up To 875 MHz | Up To 1480 MHz | Up To 1455 MHz | 1.08 GHz (Preliminary) | 1.11 GHz (Preliminary) | 1.11 GHz (Preliminary) |
FP32 Compute | 1.33 TFLOPs | 4.29 TFLOPs | 8.74 TFLOPs | 10.6 TFLOPs | 15.0 TFLOPs | ~15 TFLOPs (Preliminary) | ~17 TFLOPs (Preliminary) | ~18 TFLOPs (Preliminary) |
FP64 Compute | 0.66 TFLOPs | 1.43 TFLOPs | 2.91 TFLOPs | 5.30 TFLOPs | 7.50 TFLOPs | TBD | TBD | TBD |
VRAM Size | 6 GB | 12 GB | 12 GB x 2 | 16 GB | 16 GB | 48 GB | 24 GB | 32 GB |
VRAM Type | GDDR5 | GDDR5 | GDDR5 | HBM2 | HBM2 | HBM2e | HBM2e | HBM2e |
VRAM Bus | 384-bit | 384-bit | 384-bit x 2 | 4096-bit | 4096-bit | 4096-bit? | 3072-bit? | 4096-bit? |
VRAM Speed | 3.7 GHz | 6 GHz | 5 GHz | 737 MHz | 878 MHz | 1200 MHz | 1200 MHz | 1200 MHz |
Memory Bandwidth | 177.6 GB/s | 288 GB/s | 240 GB/s | 720 GB/s | 900 GB/s | 1.2 TB/s? | 1.2 TB/s? | 1.2 TB/s? |
Maximum TDP | 250W | 300W | 235W | 300W | 300W | TBD | TBD | TBD |
しかし興味深いのは、ローエンドGPUがより多くのメモリ容量を備えていることです。これは、NVIDIAが特定のワークロードに対してより高いメモリ容量を備えたローエンドGPUを備えているか、各GPUが異なるメモリ構成を持ち、48GB HBM2eがこの特定のGPU SKUの最高のメモリ構成。この仕様リークからわかるもう1つの最も興味深い点は、次世代のTeslaラインナップにはさまざまなGPU SKUがありますが、完全なGPUは、128 SMにパックされた8192 CUDAコアで間違いなくピークになるはずです。Volta GV100 GPUと同様に、5376 CCまたは84 SMを含むフルチップにもかかわらず、Tesla V100は5120 CUDAコア(80 SM)でピークに達したため、完全なファット(次世代)GPUは決して公開されません。では 、前のインタビューで、 NVIDIAのCEO、Jensen黄は、小さな部分は生産のためにサムスンに送信されますしながら、彼らの次の世代の7nmでのGPUの受注の大半はTSMCによって処理されることを確認していました。最後に、Jensenは次世代7nm GPUの発売時期について尋ねられましたが、彼は現時点で日付を開示するのに都合のよい時間ではないと答えました。 NVIDIAのCFOであるColette Kressとの最近のインタビューから、 7nm GPUの発表でみんなを驚かせたいと思っていることがわかっていますが、そうするための適切なタイミングを待っています。一方、AMDは、Arcturus GPUをベースとするRadeon Instinct Mi100 HPCアクセラレーターの発表も予定されています。ArcturusGPUも8192 SPを搭載しており、最新の7nm GPUアーキテクチャに基づいています。ただし、NVIDIAが過去に証明したように、より高度なノード(16nm対12nmおよび12nm対7nm)に基づく競合他社のGPUに対して超効率的かつ競争力のあるポイントまでアーキテクチャを最適化できることを証明しています。NVIDIAは、次世代GPUとまったく新しいアーキテクチャを備えたAMDと同等のプロセスであるため、実際の破壊的なパフォーマンスが確認できます。これらは間違いなくNVIDIAの次世代GPUの大きな仕様であり、3月22日に開催されるGTC 2020オンラインキーノートで、NVIDIAによる本格的な発表が期待できます。