Stable Diffusionとは?

Stable Diffusion(ステーブル・ディフュージョン)は、テキストの指示(プロンプト)を入力するだけで、まるで人間が描いたような高精細な画像をわずか数秒で生成できる画像生成AIです。2022年8月にStability AI社によって公開されました。

「呪文」と呼ばれるテキストを入れるだけで、リアルな実写風写真からアニメ風のイラスト、ファンタジーの背景まで、あらゆる画像を作り出すことができます。

仕組みや特徴、なぜこれほど有名になったのかを分かりやすく解説しますね。

1. どうやって画像を作っているの?(仕組み)

Stable Diffusionは、「拡散モデル(Diffusion Model)」という最新のAI技術を使っています。そのイメージは「彫刻」によく似ています。

  1. 完全なノイズ(砂嵐)を作る: 最初は、テレビの砂嵐のような、まったく意味のないモザイク状の画像からスタートします。
  2. 少しずつノイズを取り除く(逆拡散プロセス): AIが「このノイズの隙間に、ユーザーが言っている『猫』の形が見える気がする…」と判断しながら、少しずつモザイクを消していきます。
  3. 画像を完成させる: このステップを数十回繰り返すことで、最終的にピシッときれいな画像が浮かび上がります。

2. Stable Diffusionが革命的だった「3つの理由」

世の中にはMidjourneyやDALL-E 3など、他にも優秀な画像生成AIがありますが、Stable Diffusionが特にクリエイターやエンジニアに愛されている理由は以下の3点です。

① オープンソース(基本無料・商用利用も可能)

プログラムの「設計図(モデル)」が一般に無料公開されています。そのため、強力なパソコンさえあれば、誰でも自分の環境で制限なく(生成枚数の上限などを気にせず)画像を生成できます。生成した画像の商用利用も基本的には認められています。

② 圧倒的なカスタマイズ性

世界中の有志が「追加学習モデル」を作って配布しています。

  • 「特定の絵師さんのようなタッチ」
  • 「実写と見間違うようなリアルな日本人美女」
  • 「精密な3D背景」

など、自分の好みに特化したAIに魔改造することができます。

③ ポーズや構図を完全にコントロールできる

通常のAIは「ガチャ」のように運任せで画像を作りますが、Stable Diffusionには「ControlNet」などの強力な補助ツールがあります。これにより、人間の骨格を指定して思い通りのポーズを取らせたり、手描きの落書きをプロ級のイラストに清書させたりすることが可能です。

3. 使う上での注意点・デメリット

  • 高性能なパソコン(GPU)が必要: 自分のパソコンで動かす場合、NVIDIA製のグラフィックボード(RTXシリーズなど)を搭載した、いわゆる「ゲーミングPC」のようなスペックが要求されます。
  • 著作権や倫理的な問題: 実在する特定のイラストレーターの画風を模倣しすぎることや、実在の人物のディープフェイク(偽画像)の作成など、法整備やマナーの面で現在も世界中で議論が続いています。

AIアニメ「水溜り都市」