openaijamodel: gpt-5-mini-2025-08-07
Gemini Omni 発表 — マルチモーダル動画生成
Key Points
- マルチモーダル動画生成
- 対話式ビデオ編集
- SynthID透かし
Summary
Gemini Omni は、テキスト・画像・音声・動画を組み合わせて高品質な動画を生成・編集できる新しいマルチモーダルモデルファミリです。最初のモデル「Gemini Omni Flash」は動画出力に重点を置き、自然言語での対話的な編集、連続性・物理挙動の保持、Gemini の実世界知識に基づく推論を特徴とします。生成コンテンツには不変の SynthID デジタル透かしが埋め込まれ、検証ツールが提供されます。
Key Points
- 対話的ビデオ編集: 自然言語で複数ターンにわたり編集指示を与えられ、キャラクター・物理法則・シーンの連続性を保持する。
- マルチモーダル入力: 画像・動画・テキスト・音声(音声参照は先行サポート)を組み合わせて参照を反映した生成が可能。現時点では出力は主に動画、今後画像・音声出力を順次対応予定。
- 現実世界知識と物理理解: 重力や流体のような力学挙動をより忠実に表現し、意味的に整合するシーンを生成。
- アバターと音声: ユーザー自身の声と外見でデジタルアバターを作成して動画生成が可能。音声編集機能は責任ある提供に向け段階的に検証中。
- 透かしと検証: すべての Omni 生成動画に SynthID が埋め込まれ、Gemini アプリ・Chrome・Google 検索で検証可能。
- ロールアウト: Gemini Omni Flash は Gemini アプリと Google Flow で Google AI Plus/Pro/Ultra 契約者へ順次提供。YouTube Shorts と YouTube Create App では無償提供を開始。開発者・エンタープライズ向け API は数週間で提供予定。
Engineering Notes
- 今すぐ試す: エンドユーザー向けアプリ(Gemini, Google Flow, YouTube)から利用開始可能。API は近日公開予定のため、統合計画は短期的に更新が必要。
- プロンプト設計: 逐次編集を前提にした指示設計(前ターンを参照する指示や参照素材の明示)で安定した出力が得られやすい。
- 透明性対策: 生成コンテンツの検証フロー(SynthID チェック)の組み込みを検討し、配信や保存時のメタデータ管理を行うことを推奨。