画像生成AI(Stable Diffusion)でゲーム画像を作成する(キービジュアル)

生成AI

ゲームを作るうえで世界観やゲームにおけるイメージを考えておくことは重要です。

行き当たりばったりな開発をやっていると作り始めたときにイメージしていたものが、途中で崩壊していきます。途中からイメージがどんどん変わっていきここはやっぱりこうしたいとか、こういうテイストにしていきたいなどと変えてしまう。

結局、何がやりたかったのかわかんなくなってしまいそうなので、画像生成AIの勉強をしてキャラクターや世界観、モンスターなどアイデアのベースとなるものを作成していきたいと思います。

今回はStable Diffusionを使っていきたいと思います。

Stable Diffusion

もし自分のローカルパソコンでやる場合の推奨スペックが以下です。

推奨スペック

使用するPCデスクトップ型
OSWindows(64bit)
CPU最新モデルのCore i5~Core i7、Ryzen 5~7
GPUGeForuce RTX 30シリーズやRTX 40シリーズのVRAMが12GB以上
メモリ16GB~32GB
ストレージ512GB以上
https://dosparaplus.com/library/details/001456.html

もしこれらのスペックがないという場合でも、Google ColabやCIVITAIなどのサービスで画像生成できるので調べてみてください。

Stable Diffusionをインストール

私が書くより綺麗に説明しているページがいくつもあったので、それを参考に構築します。
ここまAIの勉強をするうえで、見つけた情報をまとめるページにしたいと思います。

参考にしたサイトは以下です。

【Stable Diffusion Web UI】Windowsにダウンロード・インストールする方法(ローカルPC)| AUTOMATIC1111版
この記事では、Stable Diffusion WebUIをローカルPC(Windows)にダウンロード・インストールする方法を紹介しています。

拡張機能の「Prompt All in One」が便利だったのでそれも入れます。

Stable Diffusionの拡張機能『Prompt All in One』の使い方!
Stable Diffusionの拡張機能『Prompt All in One』で、プロンプトの操作がこれまでになく簡単に!この記事では、Stable Diffusionの拡張機能『Prompt All in One』の使い方について詳しく...

モデル(CheckPoint)について

モデルについては以下のサイトからダウンロードできます。

Civitai | Discover and Create AI Art
Explore thousands of free Stable Diffusion & Flux models, create and share AI-generated art, and join the world's larges...

モデルを利用する際は、ダウンロードページにモデルの説明が書かれているので読んでおいたほうがよいです。なぜかというとそのモデルのプロンプトの作成や設定をするためのヒントが書かれていることがよくあります。

その他にはモデルを使用する上で確認しておく必要があるのがBase Modelとライセンスかと思います。

画像生成モデルにはいくつか種類があります。あくまで私の所感ですが、以下表形式に特徴をまとめてみました。

モデル名特徴
SD1.5動作が軽量で、種類がたくさんあります。精度は並でこのモデルで作成した画像は綺麗なんですが、AIで作ったなっていうのがわかります。

ゲームで使うとしたら背景やアイテムのアイコンあとはリアルではないデフォルメしたキャラクターなどはいいかなと思いました。
SDXLSD1.5に比べて少し重たいですが、綺麗な絵が描けます。うまくPromptを書けば生成されたものか判断に迷うくらい綺麗なものも出力できます。

ただ個人的に、指が6本以上になってしまうことが多かったです。
PonySDXL系列のモデルですが、特定のイメージに特化して作ってあるというイメージです。SDXLのように幅広くというよりは、狭くそのモデルのジャンルの画像を生成するのに長けているイメージです。

手は比較的きれいに出力されていた印象です。
illustriousアニメとかの画像生成に優れているイメージです。特に版権ものに強いイメージ。

好きなキャラクターを結構思った通りに作れる。
アニメ調な画像を生成する場合はとてもよい。好きなアニメの感じでキャラクターを作りたい場合にオススメです。

他にもありますが、使いやすいベースモデルを紹介しました。

モデルにはライセンスがあります。ライセンスには商用利用できないものもあるので、確認する必要があります。ライセンスに関しては私は、あまり詳しくないので詳しく説明してくれいているサイト様を紹介します。

CreativeML Open RAIL-M(商用利用可能)
CreativeML Open RAIL-M ライセンスをわかりやすく意訳
CreativeML Open RAIL++-M(商用利用可能)

CreativeML Open RAIL-Mからアップデートの努力義務の要項が削除されたものらしい。

Illustrious License(商用利用可能)
illustrious XLの商用利用について|Rabbit
イラストリアスの商用利用について、少し調べてみたのですが、どうもこのイラストリアスというモデルは、商用利用が可能なようです。 どういうことかというと、まずは日本語に翻訳した内容を見てみましょう。 この「SDバリアント」ライセンスには、Sta...
Addendumがついているライセンス

とりあえず簡単に調べた感じでは上記のライセンスしかみつかりませんでした。
ただ上記のライセンスにAddendumがついているもの(CreativeML Open RAIL++-M Addendumなど)は、通常のライセンスの説明に補足がついています。もしかしたら補足の内容に想定外なことが書かれているかもしれません。確認しましょう。

Lora

LoRAとは”Low-Rank Adaptation”の略で,すでに学習済みのモデル(Checkpoint)に対して、特定の学習データを組み合わせることでより望む形で出力されることができます。
Loraによって追加学習させることなく望む形の画像を出力することができます。

LoraもCIVITAIでダウンロードすることができます。

Civitai | Discover and Create AI Art
Explore thousands of free Stable Diffusion & Flux models, create and share AI-generated art, and join the world's larges...

ここで確認すべきなのは、Base Model、Usage Tips、Trigger Wordsです。まあだいたいLoraの説明に使い方書いてあります。

Base Modelは、Loraがどの学習済みモデル(Checkpoint)をベースとして作られているかです。SD1.5のLoraをPonyで使ってみたりしましたが、いまいちうまく効果がでませんでした。
学習済みモデル(Checkpoint)とLoraのBase Modelは合わせるほうがいい結果になりやすいです。

Usage Tipsは、設定内容のヒントですね。これに準拠する必要はありませんが、作者がこの設定がよかったよっていうまあ一種の目安です。

Trigger Wordsは、そのLoraの効果を最大限発揮するためのきっかけになるPromptです。Promptの中にこのTrigger Wordsを混ぜることでよりLoraの内容を画像に反映させることができます。

とりあえず出力

とりあえず以下のpromptを入力して出力してみました。

1boy,armor,sword,shield,

本当であれば、自分の望む情景があればそれを入れれば入れるほど、細かくやってくれるのですが今回は試しにやっているので、とりあえず「男の子一人、鎧と剣と盾」だけで「背景やポーズ、表情、体形、目線、色」など細かいことはAIに任せてどんな画像がでるか試したいと思います。

MeinaMix - V12 - Final | Stable Diffusion Checkpoint | Civitai
MeinaMix objective is to be able to do good art with little prompting. I have a discord where you can share images , dis...

とても軽かったです。私の環境では1枚3秒くらいで出力されたので10枚くらいだしてその中で一番よかったものを出しています。が軽量はいいのですが、右にあるのが盾かぁ~。ちゃんと用途にあったモデル、プロンプトがうまく合致できればいいものができそうです。普通に出しただけでは、絵がつぶれてしまったのでVAE(Variational Auto Encoder)をセットしました。VAEは、Promptで言葉で表せない表現をやってくれるものだと思っておけばよいかと思います。

Animagine XL 4.0 - v4 Opt | Stable Diffusion XL Checkpoint | Civitai
Please read our in-depth Guideline for prompting at Cagliostrolab Blog Overview Animagine XL 4.0 , also stylized as Anim...

すごい画像がでてきました。詳細なところまで書かれていて綺麗です。なんか鎧の模様が左右非対称で変なのは置いておいて、お尻に剣が刺さってるように見える。そうか変態さんか。

Fantasm | Pony XL - v1.0 | Stable Diffusion XL Checkpoint | Civitai
Trained on a handpicked collection of AI generated images (Midjourney, DALL-E) that screams Fantasy and beauty. Original...

盾が浮いているように見えますね。剣もおかしい。

WAI-illustrious-SDXL - v16.0 | Illustrious Checkpoint | Civitai
If you want to use more my checkpoint online generation, please visit here. WAI-NSFW-illustrious-SDXL - Sea...

きれいに出たなと思いましたが、右手の指が6本ありますね・・・。

やはり整合性のとれた綺麗な画像を出力するとなると、Promptの勉強をする必要がありますね。
ここに出てきた絵のテイストが必ず出るわけではありません。モデル、Lora、Promptなどのいろんな要素が組み合わさって画像が作られます。

なので同じSD1.5でも同じプロンプトでもモデルがかわると以下の通りまったくちがう雰囲気の絵がでます。

helloQ3 (Q版卡通) - helloQ3_v1.0c | Stable Diffusion Checkpoint | Civitai
Check out my other models: ···············································...

こればっかりはいろいろ試すしかありませんね。

コメント

タイトルとURLをコピーしました