Scribble at 2024-01-28 13:04:44 Last modified: 2024-01-28 13:27:37

よく見ている SoreNuts というサイトで、最新版の Stable Diffusion フロント・エンドである ComfyUI が紹介されていたので、使ってみている。Windows だと、1.4GB くらいの 7Zip アーカイブをダウンロードして、好きな場所に展開するだけだから簡単だ。アーカイブを展開すると、だいたい 5GB ていどを使うので、もちろんストレージに余裕はあった方がいい。

既に 1111 WebUI のような他のフロント・エンドを使っているなら、既に利用している分散モデルとか追加修正データ（LoRA, LyCORIS など）を共有できるので、YAML ファイルを編集して既存のフロント・エンドのパスを設定しよう。それから ComfyUI のインストール・フォルダの直下にある ./run_nvidia_qpu.bat のようなファイルを実行すれば、ブラウザでフロント・エンドが表示される。いつものことだが、手始めに横長の風景画を出してみたのが上の様子だ。

結論から言うと、1111 WebUI と比べて使い勝手には独特なものがあって慣れる必要はあるが、画像を生成するパフォーマンスは格段に優れている。まず、その生成スピードが驚くほど速い。僕はもともとスペックの低い環境で出力しているので、生成スピードを 1111 WebUI では最も速くなるように、サンプリング・メソッドは DDIM を使うことが多い。これはステップ数を少なくしても急速に結果が収束するサンプリング・メソッドだからだ。だいたいステップ数を15くらいにしても安定した画像が出せる。そして、画像の生成スピードにとって最も大きな影響があるのはステップ数だから、この値が少なければ生成は速くなる。そして 1111 WebUI では、最近は SDXL のトレーニング・サイズを想定して 1,024 x 724 というサイズで画像を出力しているのだが、1111 WebUI だと所要時間は８秒ほどかかるのが、この ComfyUI では６秒くらいで出力される。これだけでも大きな違いだ。更に 512 x512 のように標準的なサイズで出すと、もう２秒くらいで生成される。もっとスペックの高いマシンなら、それこそリアルタイムに画像を出力してビデオにできてしまうのも当然だろう。

この ComfyUI では、処理の推移をグラフィカルに眺められるのも楽しい。そして、この生成速度の速さが、モデルや VAE を初回だけ素早く読み込んだら（1111 WebUI でも初回の読み込みはあるが）次からは読み込みの処理なしに利用していることで実現されているという事情も分かった。こういうことは、もしメモリにストアするのであれば、1111 WebUI だとメモリ不足のエラーで止まってしまうだろうと思うのだが、ComfyUI だと更に最適化されているのか、それとも容量の大きなページング・ファイルを優先して利用しているのだろうか。ともかく、色々と試してみる余地はたくさんあるが、これも（僕が使っている、いまとなっては「低スペック」のマシンですら）安定して使えるようだから、今後の道具の一つにできるかもしれない。

冒頭に戻る