
2025/07/27(日)
2025年7月28日に公開されたオープンソース動画生成AI「Wan2.2」が、AI動画生成の世界に大きな衝撃を与えています。140億パラメータという圧倒的な規模と、商用利用可能なApache 2.0ライセンスを武器に、従来のクローズドソースモデルに匹敵する品質を実現しているのです。
私自身、この革新的なモデルをComfyUIを使ってローカル環境で実際に試してみました。結果として、設定の複雑さや技術的な課題に直面しましたが、その過程で見えてきたWan2.2の真の可能性と、動画生成AIの未来について詳しくお伝えします。
この記事では、実際のインストール体験を通じて明らかになった課題と解決策、そしてWan2.2が持つ革新的な技術について、初心者の方でも理解できるよう詳しく解説していきます。
目次
Wan2.2は、Alibaba CloudのWan-AIチームによって開発された最新の動画生成AIモデルです。このモデルの最大の特徴は、2段階生成システムを採用していることです。
具体的には、初期のノイズが荒い段階を処理する「ハイモデル」と、その結果を引き継いで精度を上げる「ローモデル」の2つのモデルが連携して動作します。この革新的なアプローチにより、従来の単一モデルでは実現できなかった高品質な動画生成が可能になっています。
パラメータ数は140億と50億の2つのバージョンが用意されており、用途や環境に応じて選択できます。特に注目すべきは、Apache 2.0ライセンスで提供されているため、商用利用が完全に可能な点です。これは企業や個人事業主にとって非常に重要な要素といえるでしょう。
ComfyUIは、ノードベースのGUIを採用したStable Diffusion系画像・動画生成のためのプラットフォームです。視覚的にワークフローを構築できるため、コードを書くことなく複雑な生成プロセスを組み立てることができます。
私が実際にWan2.2をComfyUIでセットアップした際の手順は以下の通りでした:
しかし、この過程で多くの技術的課題に直面しました。
最も困難だったのは、モデルファイルの形式に関する問題でした。Wan2.2では、GGUF形式とSafeTensors形式の2つのファイル形式が存在し、それぞれ異なる特性を持っています。
GGUF形式は量子化によってファイルサイズが圧縮されており、メモリ使用量を抑えることができます。一方、SafeTensors形式は元の精度を保持していますが、ファイルサイズが大きくなります。実際の使用では、これらの形式の違いが動作に大きく影響することが分かりました。
ComfyUIのノードベースインターフェースは非常に強力ですが、初心者には理解が困難です。私自身も「UIが大に難しいな」と感じ、操作方法を理解するのに相当な時間を要しました。
特に、モデル名の変更やファイルパスの設定など、基本的な操作でも複数のステップが必要で、一つでも設定を間違えるとエラーが発生してしまいます。
設定の課題を乗り越えて実際に動画生成を行った結果です。画像は以下です。
まずはComfyUIの初期設定にしたがって出力してみました。約10分程度で4秒の動画が生成されましたが、生成された動画の品質には課題が残りました。
具体的には、画像が予想以上に荒く、期待していたクオリティには達しませんでした。しかし参考記事では非常にクオリティの高い動画が生成できていおり、これは設定の問題である可能性が高く、適切なパラメータ調整により改善できると考えられます。今後、いろいろな設定で試してみようとは思います。
しかし、動画の動きや構成については確かに高いレベルを感じることができ、設定を最適化すれば非常に高品質な結果が得られる可能性を秘めていることが分かりました。
Wan2.2がApache 2.0ライセンスで提供されていることは、商用利用を検討している方にとって大きなメリットです。このライセンスにより、生成された動画コンテンツを商用目的で使用することが明確に許可されています。
ただし、2025年7月にYouTubeが発表した収益化ポリシーの変更により、AI生成コンテンツの活用方法には注意が必要です。単純にAIで大量生産されたコンテンツではなく、人間の創造性と努力が感じられる形での活用が求められています。
Wan2.2のような高品質なオープンソース動画生成AIの登場は、クリエイティブ業界に大きな変革をもたらす可能性があります。特に、以下のような用途での活用が期待されます:
重要なのは、AIを単なる自動化ツールとして使うのではなく、人間のクリエイティビティを拡張するパートナーとして活用することです。
Wan2.2は確実に動画生成AIの新たな可能性を示す革新的なモデルです。実際の実装過程では多くの技術的課題に直面しましたが、それらを乗り越えることで得られる価値は非常に大きいと感じています。
主要なポイントを整理すると:
設定の問題により期待した品質は得られませんでしたが、Wan2.2が持つ潜在能力の高さは十分に感じることができました。適切な設定と環境を整えることで、プロフェッショナルレベルの動画生成が可能になると確信しています。
動画生成AIの分野は急速に進歩しており、Wan2.2のようなオープンソースモデルの登場により、より多くの人がこの技術にアクセスできるようになりました。技術的な課題はありますが、それを乗り越える価値は十分にあると私は考えています。
Wan2.2は、Alibaba CloudのWan-AIチームが開発したオープンソースの動画生成AIモデルです。特徴的なのは、ハイモデルとローモデルの2段階生成システムを採用している点で、高品質な動画生成が可能です。また、Apache 2.0ライセンスで提供されており、商用利用も許可されています。
ComfyUIでWan2.2をローカル実装するには、まずComfyUIのポータブル版をダウンロードし、Hugging Faceから必要なモデルファイルをダウンロードする必要があります。その後、各ファイルを適切なフォルダに配置し、ComfyUI上でワークフローを設定・実行します。ただし、ファイルサイズが非常に大きいため、十分なストレージ容量が必要です。
Wan2.2のローカル実装では、主にファイルサイズの巨大さ、モデルファイルの形式(GGUFとSafeTensors)に関する互換性の問題、そしてComfyUIの複雑なUIが課題となります。特に、ファイルサイズは約50GBに達するため、ダウンロードに時間がかかり、十分なストレージ容量が必要です。
Wan2.2の生成速度を向上させるには、「Lite X2V」の1.2.2対応版LoRAを活用する方法があります。この技術を使うことで、動画生成に必要なステップ数を大幅に短縮でき、生成時間を3分以下に短縮することが可能です。
Wan2.2はApache 2.0ライセンスで提供されているため、生成された動画コンテンツを商用目的で使用できます。ただし、YouTubeの収益化ポリシー変更により、AI生成コンテンツを単純に大量生産するのではなく、人間の創造性と努力が感じられるような活用方法が推奨されています。
Workstyle Evolution代表。18万人超YouTuber&『ChatGPT最強の仕事術』著者。
株式会社Workstyle Evolution代表取締役。YouTubeチャンネル「いけともch(チャンネル)」では、 AIエージェント時代の必須ノウハウ・スキルや、最新AIツールの活用法を独自のビジネス視点から解説し、 チャンネル登録数は18万人超(2025年7月時点)。