Paperspace GradientとGoogle ColabのGPUインスタンスの性能をメモしておく(4月24日:神里綾華ベンチマークの情報追加).

はじめに

GPUを使用するアプリケーションの場合,インスタンスのVRAMが重要だったりする.いちいち調べるのも面倒なので,インスタンスの仕様をまとめておく.

環境

・Google Colab 無料版

・Paperspace Gradient Growth

Google Colab(無料版で調査)

まずはColabの環境を調査する.メモリ(RAM)やディスクは,ターミナルで確認した値とリソースの値がだいたい一致していたので,リソースで確認した.

CPUのみ (2023年4月19日に調査)

【GPU】なし,【VRAM】なし,【CPU】AMD EPYC 7B12 1core, 【RAM】12.7 GB,【ハードディスク】107.7GB

T4 インスタンス (2023年4月19日に調査)

【GPU】Tesla T4,【VRAM】15 GiB (約16 GB),【CPU】Intel(R) Xeon(R) CPU 2.2GHz 1core, 【RAM】12.7 GB,【ハードディスク】78.2GB

その他の情報

OSのバージョン (2023年4月21日に調査)

Ubuntu 20.04.5 LTS

Pythonのバージョン (2023年4月21日に調査)

Python 3.9.16

512×768:神里綾華ベンチマーク

以下のサイトを参照(A100, T4の情報が記載).

【西川和久の不定期コラム】 ローカルで画像生成AIや大規模言語モデルを動かしたい!Google ColabからRTX 3070 Ti+GPU Boxへ乗り換え!?
 前々回、Stable Diffusion WebUIをGoogle Colab(Pro)で動かす話をした。その後、快適に使っていたものの良からぬ願望が沸々と……。そう「ローカルPCに環境が欲しい!」だ。今回はその経緯と、画像生成だけではなく、大規模言語モデルをPCで動かすソフトウェアなども合わせてご紹介したい。

Paperspace Gradient (Growthで調査)

次は,Paperspace Gradientである. ちなみに,だいたいの仕様は公式ページに掲載してある(リンクはこちら).

CPUの数や,VRAMとRAMの大きさは,インスタンスの選択画面に書いてある値と一致していた.Pro版と比較すると,インスタンスのハードウェアの容量が500GiBあるので,容量が大きい(Pro版は170GiBとかだった気がする).

Free-CPU (2023年4月19日に調査.Free, Pro, Growth)

【GPU】なし,【VRAM】なし,【CPU】Intel(R) Xeon(R) Gold 6226R 2.9GHz 2cores, 【RAM】4 GiB,【ハードディスク】500 GiB(Growthだから)

Free-GPU (2023年4月19日に調査. Free, Pro, Growth)

【GPU】Quadro M4000,【VRAM】8 GiB,【CPU】Intel(R) Xeon(R) E5-2623 2.6GHz 8cores, 【RAM】30 GiB,【ハードディスク】500 GiB(Growthだから)

Free-RTX4000 (2023年4月21日に調査. Pro, Growth)

【GPU】NVIDIA RTX 4000,【VRAM】8 GiB,【CPU】Intel(R) Xeon(R) Silver 4215R 3.2GHz 8cores, 【RAM】30 GiB,【ハードディスク】500 GiB(Growthだから)

Free-P5000 (2023年4月19日に調査. Pro, Growth)

【GPU】Quadro P5000,【VRAM】16 GiB,【CPU】Intel(R) Xeon(R) E5-2623 2.6GHz 8cores, 【RAM】30 GiB,【ハードディスク】500 GiB(Growthだから)

Free-RTX5000 (2023年4月21日に調査. Pro, Growth)

【GPU】NVIDIA RTX 5000,【VRAM】16 GiB,【CPU】Intel(R) Xeon(R) Silver 4215R 3.2GHz 8cores, 【RAM】30 GiB,【ハードディスク】500 GiB(Growthだから)

Free-A4000 (2023年4月21日に調査. Pro, Growth)

【GPU】NVIDIA RTX A4000,【VRAM】16 GiB,【CPU】Intel(R) Xeon(R) Gold 5315Y 3.2GHz 8cores, 【RAM】45 GiB,【ハードディスク】500 GiB(Growthだから)

Free-A5000 (2023年4月21日に調査. Growth)

【GPU】NVIDIA RTX A5000,【VRAM】24 GiB,【CPU】Intel(R) Xeon(R) Gold 5315Y 3.2GHz 8cores, 【RAM】45 GiB,【ハードディスク】500 GiB(Growthだから)

Free-A6000 (2023年4月19日に調査. Growth)

【GPU】NVIDIA RTX A6000,【VRAM】48 GiB,【CPU】Intel(R) Xeon(R) Gold 5315Y 3.2GHz 8cores, 【RAM】45 GiB,【ハードディスク】500 GiB(Growthだから)

Free-A100-80G (2023年4月21日に調査. Growth)

【GPU】NVIDIA A100-SXM,【VRAM】80 GiB,【CPU】Intel(R) Xeon(R) Gold 5317 3.0GHz 12cores, 【RAM】90 GiB,【ハードディスク】500 GiB(Growthだから)

その他の情報

OSのバージョン (2023年4月21日に調査)

Ubuntu 20.04.5 LTS

Pythonのバージョン (2023年4月21日に調査)

Python 3.9.16

512×768:神里綾華ベンチマーク 

以下のサイトに神里綾華ベンチマークなるものがあったので,試してみた.実行環境としては,先日の記事のWebUIで「AbyssOrangeMix2_nsfw」をモデルとしてダウンロードしたものを用いた.

https://chimolog.co/bto-gpu-stable-diffusion-specs/

上記のサイトと同様の設定で実施したところ以下の画像が生成された.内容がほぼ一致してるので設定は恐らく同じである.

生成した画像

なお,画像の生成速度(it/s)に関しては,トータルの結果の生成速度を見ているので,上記のベンチマークよりも低く出ている可能性がある.
※生成速度は,瞬間値とトータルの値で大きな差がある.ログの画像も掲載したので,その解釈はお任せする.

Free-A6000 (Growth Planで頻繁に引けるGPU)

10枚の描画時間 23秒,生成速度 8.58it/sであった.

Free-A6000で10枚生成した際の生成速度

このサイトによると,Google ColabのA100が,10枚の描画時間 32秒, 生成速度 6.24 it/sらしいので,Colabよりは性能は上のようである.

一方で,ローカル環境に対してだと,このサイトの調査と比較すると,RTX3080 10GBに負けてるみたい.ただ,最後の1枚の生成速度の平均値は11.37 it/sなので,そこだけ見ればRTX 3090を超えた性能である.

10枚当たりの描画時間で比較すると,Free-A6000が23秒(ただし小数点以下の値が不明)なのに対し,RTX3080 10GBは25.6秒,RTX3090は23.7秒(このサイトより引用)であった.このことからも,ローカル環境のRTX3090並みの性能は出ていそうである.
以下に追記した理由から,描画時間の比較はできてないかも生成速度を比較した方が良い

【2023年4月25日追記】

描画時間を確認する場所がこのサイトと違っていたので,再確認したところ,28.95秒となっていた.コンソールで確認した値は,10枚当たりの描画時間23秒だったので,結構差があった.ただ,純粋に画像の生成速度と描画時間を見るのであれば,コンソールで良いと思った(後述).

WebUIのログで見た値(28.95 sとなっている)
コンソールで確認した値(00:23となっている)
Free-A5000(Free-A6000の一つ下のスペックのGPU)

10枚の描画時間 24秒,生成速度 8.02it/sであった.Free-A6000と大して変わらないのね.

Free-A5000で10枚生成した際の生成速度

Free-A4000(Pro Planで引けるGPUの中では最上位の性能)

10枚の描画時間 31 秒,生成速度 6.35 it/sであった.

Free-A4000で10枚生成した際の生成速度
Free-RTX5000 (Pro Planで引けるGPUの中では上位の性能)

10枚の描画時間 42秒,生成速度 4.75it/sであった.

Free-RTX5000で10枚生成した際の生成速度
Free-P5000(Pro Planで頻繁に引けるGPU)

10枚の描画時間 2分36秒(156秒),生成速度 1.28 it/sであった.

Free-P5000で10枚生成した際の生成速度

このサイトによると,Google Colab(無料版)のT4が,10枚の描画時間 66秒, 生成速度 2.99 it/sらしいので,Free-P5000は有料版でしか使えないにも関わらず,T4よりも性能が低い

Free-GPU(無料Planで使えるGPU)

10枚の描画時間 8分6秒(486秒),生成速度 2.43 s/it(≒0.412 it/s)であった.

Free-GPUで10枚生成した際の生成速度

このサイトによると,Google Colab(無料版)のT4が,10枚の描画時間 66秒, 生成速度 2.99 it/sらしいので,無料版はColabより性能が低い(圧倒的に).

512×768:神里綾華ベンチマークの比較表(Paperspace vs. Colab)

上記のデータを集計した結果が以下の表である.

Paperspace GradientGoogle Colab[1]
契約プランGrowth Pro無料版Pro, Pro+無料版
GPUの種類Free-A6000Free-A5000Free-A4000Free-RTX5000Free-P5000Free-GPUA100T4
生成速度
(瞬間値) [it/s]
8.58
(11.37)
8.02
(10.47)
6.35
(7.85)
4.75
(7.09)
1.28
(1.40)
0.412
(0.431)
6.242.99
1枚の描画時間 [s]2.32.43.14.215.648.63.26.6
生成速度×10枚の描画時間[2]197192197200200200200197
[1]https://pc.watch.impress.co.jp/docs/column/nishikawa/1487845.htmlより引用.
[2]生成速度が1秒あたりに処理されたイテレーション数(画像数)を示すのであれば,生成速度×描画時間(10枚)は200(=ステップ数20×バッチ数10)になると思われる.

生成速度(it/s)に関しては,トータルの生成速度と途中の生成速度の値に大きな差があったので,上記の画像中の生成速度を10個ほどピックアップして平均をとった値を「瞬間値」と定義して,参考値として掲載した.

また,描画時間(s)に関しては,上記の内容では10枚当たりの生成時間を掲載したが,1枚当たりの方が生成画像を増やした際の時間が見積りやすいので,描画時間は1枚当たりの生成時間とした.

Colabのデータは外部から得ているので,取得した値がPaperspaceとColab間で比較できているか(同じ指標を見ているか)を確認するために,生成速度(it/s)と10枚の描画時間(s)の積を算出し,表に掲載した.今回は,200回処理が終わると終了のはずなので,その積は200になると考えられる.

結果として,すべての条件でおおよそ200になっているので,同じ指標で比較していると思われる.若干の誤差は,恐らくコンソールの表示で時間の小数点以下が切り捨てられた影響である.例えば,Free-A5000の場合,積が192なので大きく値が外れているが,10枚の描画時間が24.9秒で小数点以下が切り捨てられた可能性があると考えられる(24.9×8.02=約200).

このベンチマークにおいて,PaperspaceのA6000がColabのA100を上回ったが,ハードウェアのパフォーマンスとしては流石にA100の方が上みたい(参考サイト).

まとめ

Colabの無料版で使えるT4インスタンスはVRAMが15GBあるので,色々できそう.

一方,Paperspaceの無料版で使えるのはFree-GPUで,VRAMは8GBなので結構厳しい.神里綾華ベンチマークでも,ColabのT4に劣ることが分かった(PaperspaceのFree-GPUの画像生成速度は,ColabのT4の14%程度だった)ので,無料版は厳しい感じがする.

それどころか,PaperspaceのPro Planで頻繁に引けるFree-P5000は,Colabの無料版で使えるT4よりも性能が低い可能性がある.Quadro P5000 vs. Tesla T4という観点では当たり前かもしれないが,有料 vs. 無料という観点では驚きである.

Paperspaceが得になるのは,Growth Planからの可能性があると感じた(Free-RTX5000以上のGPUが引ければProでも良さそうだけど,引けるかな?).

Paperspace GradientのCPUはインスタンスによって変わるが,順当に高スペックのGPUには高スペックのCPUが割り当てられてるみたい.価格を調べると,CPUの価格見ただけでも,このサブスクはお得な気がしてくる.Growthは,今のところ結構繋がる(A100-80GBは引けないけど 金曜の23:30ぐらいには,なぜか引けてる.むしろRTX5000がなかなか引けない).

コメント

タイトルとURLをコピーしました