【笠原一輝のユビキタス情報局】AI性能を引き上げるために、あらゆる機能が強化されたNVIDIAの「H100」
従来のCUDAではGPCを扱う階層がなかったため、データのロカリティという問題が発生していた。簡単に言えば、データがGPUの中に階層的に用意されているメモリのどこに置かれているかという問題で、それが演算しようとするSMから近いところにあればいいのだが、演算しようとするSMが属しているGPC上にはないと、L2キャッシュを読みいったり、メインメモリに読みにいったりして、演算器の待ち時間、つまりメモリレイテンシが増大してしまう問題があった。 そこで、処理しているスレッドをクラスターでブロックして、同じデータを実行するスレッドはできるだけ同じGPCの中にあるSMで実行するようにし、より効率の良いメモリアクセスを可能にする。それによりメモリレイテンシや、内部の帯域が圧迫されることを防ぐことができる。また、非同期実行では、TMAという新しいハードウェアがSMに内蔵されている。これはCPUのDMA転送と同じようなもので、メモリをメインメモリからキャッシュに転送する場合、あるいはほかのクラスターのキャッシュに転送する場合を、GPUの演算器を使わずに行なうことができる。それにより、GPUの演算とメモリ転送が非同期で行なえるようになり、GPU全体の性能が向上することになる。そして、H100のもう1つの大きな強化点はNVLinkの強化だ。NVLinkはGPUとGPUを接続するインターコネクトとして開発されたものだが、現在はNVSwitchというスイッチコントローラも用意されていることで、2つのGPUだけでなく、8つとNVSwitchを利用することでGPUの数をスケールアップできるようになっている。 そうしてスケールアップして、複数のGPUを1つのGPUとして扱うことで、性能を上げていく、これがNVIDIAの近年のデータセンター向けGPUの基本的な戦略だ。今回のH100に内蔵されているNVLinkのコントローラは第4世代となっており、リンクあたり25GB/sで18リンクというスペックになっており、最大900GB/sという超広帯域を実現している。 そうしたNVLink自体が広帯域になっただけでなく、NVLinkのスイッチチップであるNVSwitchも第3世代となり、64ポート、双方向で1.
7TB/sを実現しているほか、新しく「SHARP」と呼ばれる仕組みが導入されて、実効帯域が約2倍になっているという。そうした拡張により、GPUのNVLinkとNVSwitchを組み合わせると、最大で256基のGPUをまとめて1つのGPUとして扱うことができる。 従来NVIDIAが販売していたA100を8個搭載したサーバーアプライアンス「DGX A100」では、4つのNVSwitchを利用して8つのGPUを1つの巨大GPUとして扱えるようになっていた。そして、さらに32個のDGX A100をInfiniBandで接続してスケールアウトして利用することが可能になっていた。H100のDGX H100でも基本それは同じなのだが、NVLinkが第4世代になって帯域幅が向上したこと、そしてNVSwitchが第3世代になり、簡単に言うとスケールアウトにInfiniBandに替えてNVLinkで使えるようになる。具体的にはDGX H100同士の接続は、NVSwitchを利用することで、NVLinkで接続することが可能になる。これは新しいNVSwitchが256個のGPUを接続することが可能になっているためで、8個のH100を搭載しているDGX H100を32台NVLinkで接続してスケールアウトできる。この場合GPUは256個を1つの巨大GPUとして扱うことが可能になる。もちろん性能も引き上げられ、InfiniBandで32台のDGX A100をスケールアウトした場合の性能である80PFLOPSに比べて、NVLinkで32台のDGX H100をスケールアウトした場合には6.4倍の512PFLOPSとなると説明している。さらにInfiniBandと組み合わせると、256のGPUから構成されるNVLinkクラスターを4つまとめて最大で1,024個のGPUとしてクラスターを構成することができる。その場合には2,048PFLOSと2EFLOPSにも達する演算性能を実現することが可能になっている。NVIDIAはこの1,024個GPUから構成されているスーパーコンピュータをEoSというブランドで製品化する計画とGTCで明らかにしている。 このように、今回NVIDIAは、GPUという半導体のレベルでも、そしてCUDAというプログラミングモデルのレベルでも、そして最後にInfiniBandをNVLinkに置きかえるネットワークのレベルでも大きな強化をしており、新しいNVSwitchを利用すると、DGX H100を32台接続してNVLinkだけで巨大なGPUクラスターを構成することが可能になる。これにより512PFLOSという性能を実現可能になる。汎用の半導体だけでそこまでの性能を実現される。 さらに、それを4つクラスター化することで、2EFLOPSのという性能を実現している。このことは、科学演算やAI学習の性能が足りていないと考えている組織や企業などにとっては大きなインパクトをもって迎えられるだろう。
日本 最新ニュース, 日本 見出し
Similar News:他のニュース ソースから収集した、これに似たニュース記事を読むこともできます。
NVIDIAが次世代GPUアーキテクチャ「Hopper」を発表、AI処理速度がAmpereの6倍など各種性能が飛躍的に向上NVIDIAが自ら主催する開発者向けカンファレンス・GTC 2022の中で次世代GPUアーキテクチャ「Hopper」と、そのHopperを搭載する「H100 GPU」を発表しました。HopperはNVIDIAが注力している機械学習モデルのTransformerにおける処理能力を飛躍的に向上させます。
続きを読む »




