Google Veo 3.1をFlowで実際に試してみた！画像指定動画生成の驚異的クオリティを検証

Google DeepMindが開発した最新の動画生成AI「Veo 3.1」が、ついにFlowプラットフォームで利用可能になりました。前バージョンのVeo 3.0でも十分に驚異的なクオリティを実現していましたが、3.1ではさらなる進化を遂げています。実際に様々な機能を試してみた結果、その圧倒的な表現力と自然さに改めて驚かされました。

今回は、Veo 3.1の新機能である参照画像を使った動画生成、フレーム指定による動画制作、そして動画素材のアップロード機能まで、実際の操作を通じて詳しく検証していきます。動画編集機能については一部制限があったものの、基本的な動画生成機能のクオリティは期待を大きく上回るものでした。

1 Veo 3.1の革新的な機能とは
2 実際の動画生成テスト：プロンプトベース生成
3 画像指定による動画生成：最も印象的だった機能
- 3.1 単一画像からの動画生成
- 3.2 開始・終了フレーム指定による動画生成
4 動画素材アップロード機能の検証と制限
- 4.1 対応フォーマットの制限
5 まとめ
6 参考リンク
7 よくある質問（FAQ）
- 7.1 この記事の著者
  - 7.1.1 池田朋弘（監修）

Veo 3.1の革新的な機能とは

Veo 3.1は「創造性のために設計されたビデオ生成モデル」として位置づけられており、従来のモデルと比較して格段に高いコントロール性を実現しています。

主要な新機能

参照画像機能：場所、キャラクター、オブジェクト、またはそれらの組み合わせを使用可能
クリップ拡張機能：短いクリップを完全なシーンに変換
フレーム指定：開始フレームと終了フレームを指定した動画生成
動画素材対応：既存の動画をベースにした新しい動画の生成
音声生成：サウンドエフェクト、アンビアントノイズ、ダイアログの自動生成

これらの機能により、VOは参照素材をサウンド付きの完全なシーンにまとめることができ、従来の動画生成AIでは実現困難だった細かなディテールコントロールが可能になっています。

実際の動画生成テスト：プロンプトベース生成

まず、テキストプロンプトのみを使用した基本的な動画生成を試してみました。以下のようなプロンプトで実際に生成を行いました：

プロンプト	生成結果の特徴
「未来都市ドローン視点」	非常にシネマティックな映像が生成され、ライティングやシャドウの表現が秀逸
「侍×雨の戦闘」	リアルワールドフィジックスに基づいた自然な動きと雨の表現
「近未来バイク&スピード感」	スケール感とマッチングが優秀で、スピード感のある映像を実現

どのプロンプトでも、従来のAI動画生成では困難だった「アストニッシングディテール」と呼べるレベルの細部表現が実現されており、特にライティングとシャドウの自然さは驚異的でした。

画像指定による動画生成：最も印象的だった機能

Veo 3.1で最も革新的な機能の一つが、参照画像を使った動画生成です。実際にMidjourneyで作成したスライドテンプレート画像を使用してテストを行いました。

単一画像からの動画生成

デザインされたセミナー用スライドテンプレート画像。Veo 3.1で動画生成の入力画像として利用されている。 — Midjourneyで作成されたセミナー用スライドテンプレート画像がVeo 31の参照画像として使用されている様子

セミナー用のスライドテンプレート画像を入力として、「かっこよくズームアウト」するような動画を生成しました。結果として得られた映像は、元画像の構図やデザインを完璧に保持しながら、自然なカメラワークを実現していました。

開始・終了フレーム指定による動画生成

さらに印象的だったのが、2つの画像を開始フレームと終了フレームとして指定する機能です。「AIと人間が一緒に仕事をしている様子」をテーマに、2つの異なる画像を指定して動画を生成しました。

この機能で生成された動画の自然さは特筆すべきレベルでした。2つの画像間の切り替わりが「すげえ自然」で、まるで実際に撮影されたかのような滑らかなトランジションを実現していました。従来のAI動画生成では、このような複数フレーム間の一貫性を保つことは非常に困難でしたが、Veo 3.1では seamless（シームレス）な結果を得ることができました。