あざらしなので

備忘録と日常のこと

Raspberry Pi4のGPGPUに挑戦(その1)

””””内蔵GPUもったいなくないですか?””””

Raspberry Pi4には計算資源としてCPUの他にVideoCoreⅥ(VC6)と呼ばれるGPUが搭載されています。

GPUを汎用計算に活用するGPGPUは一般的にNvidia社の外付けGPUを用いて行われていますが、組み込みボードやノートPCでもGPUは搭載されているものがあり、GPGPUが可能です。(技術的には)

組み込みボードでは計算資源の拡張が難しいのでGPGPU活用は色々と嬉しいことがあると思います。

今回は組み込みボードの代表格であるRaspberry Piの最新機、Pi4でGPGPUに挑戦します。

VC6-GPGPU プログラミング方法

Python上でVideoCore6のアセンブリを記述&実行できる神ライブラリpy-videocore6がIdein社から公開されています。

github.com

アセンブラなのでプログラミングにはVC6のハードウェア構造を理解する必要がありますが、一般にアーキテクチャリファレンスは公開されていません。また、上記ライブラリ自体のドキュメントも存在せず知識0からの開発はかなり難易度が高いです。

ですが、一応ネット上に公開されている情報からできなくはないです。

1)VC6アーキテクチャはVC4と類似

Raspberry Pi zero,1,2,3に搭載されているVideoCoreⅣ(VC4) GPU完全なアーキテクチャリファレンスが公開されています。

https://docs.broadcom.com/doc/12358545

py-videocore6のVC4版も公開されており(こちらが先)、サンプルのSGEMMを解説したQiita記事も存在します。

github.com

qiita.com

(有料ですが過去に私が執筆した入門書もあります。)

booth.pm

上記をすべて網羅すればVideoCore4のGPGPUができますね。VC4からVC6へのキャッチアップには↓の記事が良いと思います。(リファレンスなしでGPGPUはヤバすぎる....)

Idein Ideas — GPGPUの観点から見る VideoCore VI と VideoCore IV の違い

2)サンプルコードが豊富

実際のプログラミングにはpy-videocore6リポジトリのexamplesフォルダのコードを読めば雰囲気がつかめると思います。testsフォルダにて各機能を試すことができるのでexamplesを読みつつ命令の挙動確認にtestsコードを使うのが良いと思います。

VC4のSGEMMにあったような細かいレジスタ節約のテクニックは同社のQMKL6のsgemmあたりを読めば大体わかります。

github.com

VideoCore6アーキテクチャ

↑の記事にすべて書いてありますが概要だけ一応

VC6はQPUと呼ばれる4way-SIMD演算器が8個搭載されています。命令では各QPUが4cycle使って16way-SIMDとして動作します。FMAがあり、500MHzで駆動するのでFLOPSは

4(QPU) x 8 x 2(FMA) x 0.5 =32GFLOPS

となります。Pi4のCPUは48GFLOPSらしいので""GPGPUで高速化!!""には期待できず、GPUオフロードによるCPUの負荷軽減やCPU-GPU並列計算での高速化とかに使えると思います。

レジスタSIMD計算機なので長さ16のベクトルレジスタとなっています。各QPUにはアキュムレータ5本(r0~r4)と64本(rf0~rf63)のレジスタファイル、1個のスカラ用レジスタ(r5)があります。

レジスタが多く、SIMTではなくSIMDアーキテクチャなので昨今のGPUというよりはベクトル計算機に近いような気がします。(GPUベクトル計算機の明確な違いを良くわかっていない)

次回はVC6でSGEMMを実装します。すでにpy-videocoreのサンプルやQMKL6にて実装されたものが公開されていますが、あえてこれらは深く読まず、自分で考えて書いてみます。実装できたらFLOPSバトルして実装法の差分から考察できれば勉強として楽しそう。

最終的にはCPUのOpenBLAS SGEMMとGPUのSGEMMを使ったCPU-GPU並列動作でどれくらいの性能が出るのか実験したいと思います。SoCのCPUとGPUはメモリが共有なので同時利用による帯域の圧迫や消費電力制限によるクロック制限などで満足に性能は出ないような気がしていますが、面白そうなのでやってみます。