Stable Video Diffusionとは?使い方(ローカル環境も含む)や商用利用まで完全ガイド

2023年11月にStable Video Diffusionがリリースされて以来、動画を生成するAIツールが注目されるようになりました。

しかし、

  • Stable Video Diffusionがどんなツールなのかわからない
  • 動画を生成するために必要なものや手順を知りたい
  • 無料で商用利用できるかが気になる

以上のように考えている方が多いでしょう。

結論から言うと、Stable Video Diffusionは非営利目的のユーザーに無料公開されているImage to Videoツールです。

今回は、Stable Video Diffusionの概要や使い方、インストール方法を解説します。

画像から動画を作成してみたい方は、ぜひ最後まで読んでみてください。

目次

Stable Video Diffusionとは?5つの特徴

Stable Video Diffusionとは?
出典:Stability AI

Stable Video Diffusionの特徴として、以下の5点を紹介します。

  1. 画像をもとに動画生成するAIツール
  2. Stability AIが開発
  3. Google Colabで利用できる
  4. 研究および非営利な目的のために無料で公開されている
  5. メンバーシップに加入すれば商用利用も可

1.画像をもとに動画生成するAIツール

画像をもとに動画生成するAIツール
出典:Stability AI

Stable Video Diffusionとは、画像をもとに短い動画を生成する、AIツールです。カメラが移動したり、人物が動いたりする動画を、画像をアップロードするだけで作れます。

テキスト(プロンプト)を入力して動画を生成する機能も開発されていますよ。2023年3月時点でバージョン1.1まで公開されており、誰でも実際に動画を生成可能。

Stable Videoのようなオンラインサービスを利用すれば無料で試せますよ。

2.Stability AIが開発

Stability AIが開発
出典:Stability AI

Stable Video Diffusionは、Stability AIによって開発されています。Stability AIは、AIイラスト生成ツールStable Diffusionを公開したことで有名。

Stable Diffusion以外にも様々なAIツールがオープンソースで公開されています。Stable Video Diffusionの最新情報を得るには、Stability AIの発信をチェックしましょう。

3.Google Colabで利用できる

Google Colabで利用できる
出典:Google Colaboratory

動画の生成には、Google Colab(Colaboratory)を利用できます。有志が公開しているGoogle Colab用のソースコードをコピーすれば、少ない手間で動画生成までおこなえます。

ただし、無料でGoogle Colabを利用する場合、リソースが不足するなどの理由によって接続が強制的に切断されることも。高性能なGPUを利用するためにも、有料プランに加入したうえでGoogle Colabを利用しましょう。

高スペックPCがあればローカル環境でも利用できる

Stable Diffusionと同様に、自分のPCにローカル環境を構築して利用することもできます。ただし、VRAMが12〜16GBのGPUが必要。

性能が足りないと、動画を生成するのに時間がかかったり、そもそも生成できなかったりします。PCのスペックが十分に足りるのであれば、ローカル環境での利用も検討してみてくださいね。

4.研究および非営利な目的のために無料で公開されている

研究および非営利な目的のために無料で公開されている
出典:Stability AI

Stable Video Diffusionは研究および非営利目的のユーザーに向けて、無料で公開されています。仮にGoogle Colabの有料プランで利用するとしても、Stable Video Diffusionに対する費用は発生しません。

代わりに営利目的での利用は禁じられているので注意してくださいね。

権利ライセンスの詳しい内容については、こちらのページで確認できます。

5.メンバーシップに加入すれば商用利用も可

2023年12月から開始されたStability AIのメンバーシップに加入すれば、Stable Video Diffusionを含めた最新のコアモデルが商用利用できるようになります。

2024年3月時点で該当するコアモデルは以下のとおり。

カテゴリモデル
メディア・Stable Diffusion Turbo
・Stable Diffusion XL  Turbo
・Stable Video Diffusion
・Stable Video Diffusion 1.1
・Japanese SDXL
・Japanese Stable Clip
言語・Stable LM-Tuned-Alpha 3B
・Stable LM-Tuned-Alpha 7B
Stable LM Zephyr 3B
Japanese Stable VLM
Stable Code 3B
Stable LM 2 1.6B
3DStable Zero123C
参考:Stability.ai|Core Models

上記にない旧モデルは、メンバーシップに加入しなくても商用利用できる場合があります。

ツールのアップデートに伴って更新される可能性があるので、メンバーシップに登録する前に公式ページでチェックするとよいでしょう。

メンバーシップの料金体系・プラン

有料のメンバーシップには、プロ(Professional)プランとエンタープライズ(Enterprise)プランが用意されています。

メンバーシップの料金体系・プラン
出典:Stability.ai|Membership(翻訳)

個人での商用利用であればプロプランで事足りるでしょう。

プロプランには利用できる条件が設定されているので注意してください。

Stable Video Diffusionの導入方法と使い方

Stable Video Diffusionの導入方法と使い方
出典:Google Colab|Stable Video Diffusion (image-to-video) Demo

Stable Video DiffusionをGoogle Colabで使うには、以下のステップを踏みましょう。

  1. Google Colabでデモデータをコピーする
  2. ランタイムのタイプを確認・変更する
  3. すべてのセルを順に実行する
  4. PNG形式の画像をアップロードして動画生成を始める
  5. 生成された動画を保存する
STEP

Google Colabでデモデータをコピーする

動画生成に使用するソースコードを、自分のGoogle Colabで使えるようにコピーします。

今回使用するのは、日本のAIリサーチ企業Sakana AIのmkshing氏が公開したデモデータ。

Colabへのリンクからソースコードのページを開き、上のほうにある「ドライブにコピー」を押してください。

ソースコードのページ
出典:Google Colab|Stable Video Diffusion (image-to-video) Demo

ログインしているアカウントのGoogleドライブにデータがコピーされ、自動的にページが開きます。

STEP

ランタイムのタイプを変更する

デモデータを動かす前に、接続するランタイムを変更します。

上メニューの「ランタイム」から「ランタイムのタイプを変更」を選び、ハードウェア アクセラレータにGPUが選択されているのを確認してください。

ランタイムのタイプを変更する

有料プランではA100 GPUやV100 GPUが選べます。

無料でも使えるT4 GPUと比べて処理時間が半分くらい短くなるので、選択できるなら変更するとよいでしょう。

ランタイムを変更したあとは、上メニューの「ランタイム」から「セッションを再起動する」を選んで再起動するのを忘れずに。

STEP

すべてのセルを順に実行する

デモデータを実行してUIを起動させます。

デモデータはセル単位に分かれており、セル名の横にある再生ボタンを押すとコードを実行できます。

以下のセルが用意されているので、上から順に実行しましょう。

  • Setup
  • Login HuggingFace to download weights
  • Colab hack for SVD
  • Download weights
  • Load Model
  • Sampling function
  • Do the Run!

いくつかの例外を除き、再生ボタンを押してからチェックマークが表示されるまで待てばOKです。

すべてのセルを順に実行する

Setupを実行しているときにセッションの再起動を求められるので、再起動してから次のセルを実行してください。

Hugging Faceのアクセストークン取得方法

Login HuggingFace to download weightsのセルを実行すると、アクセストークンを入力する画面が表示されます。

Hugging Faceのアクセストークン取得方法

Download weights実行時に必要となる場合があるので、あらかじめHugging Faceで取得したアクセストークンを入力しましょう。

下記の手順でアクセストークンを取得できます。

  1. Hugging Faceでアカウントを作成(Sign Up)する
  2. ログイン後に右上のプロフィールアイコンからSettings画面を開く
  3. Access Tokensを選択して「New token」ボタンを押す
  4. Nameに任意の名前を入力して「Generate a token」ボタンを押す(Roleはreadのまま)

アクセストークンを入力して「Login」ボタンを押せばOKです。

Hugging Faceのアクセストークン

ウェイトの違い

Download weightsを実行する前には、使用するウェイト(モデルデータ)を選択しましょう。

ウェイトの違い

2024年3月時点で、Download weightsで選択できるウェイトは以下の3つ。

名称特徴
svd14フレームの動画を生成できる
svd-xt25フレームの動画を生成できる
svd-xt-1-125フレームの動画を生成できる(バージョン1.1)
フレームとは?

動画を構成する静止画像のこと。

1秒間に使われるフレームの数をfps(フレームレート)と呼ぶ。

たとえば、30fpsの動画は1秒間に30枚のフレームが表示されている。

新しいバージョンだと生成結果が安定しやすいので、とくにこだわりがなければsvd-xt-1-1を選択するとよいでしょう。

ただし、svd-xt-1-1を利用するには下記の2つをあらかじめ済ませておく必要があります。

  • Hugging Faceのフォームを入力してsvd-xt-1-1にアクセスする許可を得る
  • Login HuggingFace to download weightsのセルでアクセストークンを入力してログインする
STEP

PNG形式の画像をアップロードして動画生成を始める

最後のセルDo the Run!を実行すると、動画を生成するための画面(UI)が表示されます。

PNG形式の画像をアップロードして動画生成を始める

input imageの欄に画像をアップロードして「Run」ボタンを押しましょう。

なお、Stable Video Diffusionで使用できる画像の形式はPNGのみ

ほかの形式の画像を使いたい場合は、複数の形式で保存できるペイントツールや、iLoveIMGのようなオンラインサービスを利用して、PNGに変換してください。

画像のサイズに注意

Stable Video Diffusionでは、なるべく1024×576のサイズの画像を使いましょう。なぜなら、Stable Video Diffusionは1024×576の画像で学習されているからです。

可能であれば、良い結果が出やすくなるようにサイズを調整するとよいかもしれません。異なるサイズの画像でも動画を生成できますが、自動的にサイズが変わるので要注意。

サイズを変更されたくないときは、「resize to optimal size」にチェックを外してください。

resize to optimal size
STEP

生成された動画を保存する

動画が生成されると、「Run」ボタンの下でプレビューを見られます。

プレビューの右上にあるダウンロードボタンを押して、表示されている動画を保存しましょう。

生成された動画を保存する

プレビューが納得いかない場合は、再度「Run」ボタンを押して再生成してください。

Advanced optionsで変更できる項目

「Run」ボタンの下にあるAdvanced optionsでは、以下のような設定を変更できます。

項目概要
number of frames総フレーム数。設定できる数値はモデルによる。
number of stepsステップ数。低いと絵が崩れやすく、高いと時間がかかる。
seed生成のもとにする値。デフォルトはrandomで、固定値にすると同様の動画になる。
number of frames decoded at a time一度に処理するフレームの数。
変更しないのが無難。
frames per second1秒間のフレーム数(fps)。数値が高いとなめらかになるが、動画の時間は短くなる。
motion bucket id動きが変化する度合い。数値が高いと大きな動きになりやすい。
condition augmentation factorどのくらい元の画像に似せるかを表す。数値が高いと画像が崩れやすくなるが、画像外に拡張しやすい。
skip nsfw/watermark filterNSFW(暴力的な表現など)が含まれる動画をぼかし処理にするフィルターの有無。

ローカル環境を構築する手順

ローカル環境を構築する手順

自分のPCでローカル環境を構築するのであれば、以下の手順でStable Video Diffusionを使えるようにしましょう。

  1. Pythonをインストールする
  2. Gitをインストールする
  3. ターミナルでコマンドを実行する
  4. モデルデータをダウンロードする
  5. SVD-webuiを起動させる
STEP

Pythonをインストールする

プログラムコードを実行するために必要なPythonをインストールします。

Pythonのダウンロードページにアクセスして、Python 3.10.11をダウンロードしてください。

Python 3.10.11
出典:Python

すでにPythonをインストールしているのであれば必要ありませんが、以下の手順のなかでエラーになったら3.10.11のバージョンをあらためてダウンロードしてみましょう。

ダウンロードできたらファイルを実行し、インストールを完了させます。

インストール中、Install Nowを押す前に「Add python.exe to Path」のチェックを必ず入れてくださいね。

Pythonをインストールする
STEP

Gitをインストールする

Stable Video Diffusionのインストール作業を簡潔にするため、Gitをインストールします。

Gitのダウンロードページにアクセスし、必要なファイルをダウンロードしましょう。

Gitをインストールする
出典:Git

ダウンロードするファイルは最新版で構いません。

ダウンロードしたファイルを実行して処理を進めていけば、インストール完了です。

STEP

ターミナルでコマンドを実行する

ターミナルで3つのコマンドを実行して、Stable Video Diffusionをインストールします。

まずは、Stable Video Diffusionをインストールしたい場所で右クリックし、「ターミナルで開く」を選択してください。

するとターミナルが表示されるので、下記のコマンドを入力してエンターキーを押します。

  • git clone –recurse-submodules https://github.com/sdbds/SVD-webui/

するとSVD-webuiフォルダが作られるので、フォルダ内に移動してから再度ターミナルを開きましょう。

新たに開いたターミナルで、下記2つのコマンドを順に実行してください。

  • git submodule update –recursive –init
  • powershell -ExecutionPolicy Bypass .\install.ps1
STEP

ウェイトをダウンロードする

動画の生成に使うウェイトをHugging Faceでダウンロードします。

今回紹介するツールで使用できるウェイトはsvdのみ。

Gitでsafetensorsファイルをダウンロードしましょう。

ウェイトをダウンロードする
出典:Hugging Face|stable-video-diffusion-img2vid

ダウンロードしたファイルは、SVD-webuiフォルダ内のcheckpointsフォルダに入れてください。

STEP

SVD-webuiを起動させる

ここまで準備が整えば、ターミナルに以下のコマンドを入力してStable Video Diffusionを起動できます。

  • powershell -ExecutionPolicy Bypass .\run_gui.ps1

正しく動作すれば、自動的に生成画面が表示されるはずです。

もし画面が表示されなければ、Pythonやモデルデータをダウンロードし直したり、再度コンソールでコマンドを入力したりするなどの方法を試してみてください。

生成画面での操作方法はGoogle Colabでの画面と同様なので、画像をアップロードして動画を生成しましょう。

Stable Video Diffusionに関するQ&A

Stable Video Diffusionに関するQ&A

Stable Video Diffusionに関する、よくある質問と回答を紹介します。

  • 動かすのにStable Diffusionは必要?
  • VRAMはどうやって確認すればよいですか?
  • Google Colaboratoryでエラーになりました
  • もっと簡単にStable Video Diffusionを試す方法はありませんか?

動かすのにStable Diffusionは必要?

ツールは独立しているため、Stable Diffusionがなくても動画を生成できます。

とはいえ、Stable Diffusionを使えばPNG形式の画像をいくらでも生成できるので、動作テストに使う素材に困ることはなくなるでしょう。

Stable Video Diffusionを使うのであれば、Stable Diffusionも併せて試してみてください。

VRAMはどうやって確認すればよいですか?

WindowsのPCであれば、Ctrl+Alt+Deleteキーで開けるタスクマネージャーから確認できます。

「パフォーマンス」タブのGPUで、専用GPUメモリをチェックしましょう。

パフォーマンス

ちなみにMac PCでは、左上のMacボタンから開ける「このMacについて」のグラフィックで、GPUおよびVRAMが確認できます。

Google Colabでエラーになりました

エラーの原因として以下が考えられます。

  • デモのコードを自分のドライブにコピーしていない
  • セルを上から順に実行していない
  • モデルにアクセスできるアカウントでHugging Faceにログインしていない
  • ランタイムのタイプを変更したり、メッセージが出たりしたタイミングで、セッションを再起動していない
  • Google Colabで利用できるリソースが不足している
  • Google Colabによってコードの実行が制限されている

モデルのアップデートに伴ってコード自体が使えなくなっている可能性もあるので、SNSなどでStable Video Diffusionの情報もチェックしてみるとよいでしょう。

簡単にStable Video Diffusionを試す方法はありませんか?

Stable VideoというWebサービスを利用すれば、Stable Video Diffusion 1.1を無料かつ簡単に試せます。

Stable Video
出典:Stable Video

Stable Videoでは、クレジットを消費して画像またはテキストから動画を生成できます。

クレジットは毎日補充されるので、一度に少しずつであれば継続的に動画が作れるでしょう。

なお、クレジットは追加で購入することも可能です。

まとめ

Stable Video Diffusion
出典:Hugging Face|stable-video-diffusion-img2vid-xt

本記事では、Stable Video Diffusionについて解説しました。

最後に、記事の内容をおさらいしておきましょう。

  • Stable Video DiffusionはStabilityが公開している動画生成AIツール
  • PNG形式の画像から、14または25フレームの動画を生成できる
  • 非営利の個人利用であれば無料で使える
  • 自分のPCで使うには、およそ16GB以上のVRAMを持つGPUが必要

Stable Video Diffusionは公開されたばかりであり、まだ研究段階に過ぎません。

開発が進めば、より低いハードルで高クォリティな動画を生成できるようになるでしょう。

いち早く試してみたい方は、本記事を参考にしてStable Video Diffusionを使ってみてはいかがでしょうか?

お問い合わせ

お問い合わせ

metalandへのお問い合わせは以下のフォーム、もしくはLINE@よりお願いいたします。

  • LINE@:1〜2営業日以内にご返信させていただきます。
  • 問い合わせフォーム:3〜5営業日以内にご返信させていただきます。

記事のご制作依頼、広告掲載、プレスリリースなどお気軽にお問い合わせください。

よかったらシェアしてね!
  • URLをコピーしました!

この記事を書いた人

「Metaland編集部」は、Web3.0、メタバース、AIといった最新のトピックを皆様にお届けします。専門知識がない方でもご心配は不要です。情報を深くかつ分かりやすく解説することを重視し、新しいデジタル時代への案内役となることを目指しています。一緒に新たなステップを踏み出しましょう!

目次