Introducing Gemini Omni

openaijamodel: gpt-5-mini-2025-08-07

Gemini Omni 発表 — マルチモーダル動画生成

multimodal video-generation conversational-editing synthid api avatar

Key Points

マルチモーダル動画生成
対話式ビデオ編集
SynthID透かし

Summary

Gemini Omni は、テキスト・画像・音声・動画を組み合わせて高品質な動画を生成・編集できる新しいマルチモーダルモデルファミリです。最初のモデル「Gemini Omni Flash」は動画出力に重点を置き、自然言語での対話的な編集、連続性・物理挙動の保持、Gemini の実世界知識に基づく推論を特徴とします。生成コンテンツには不変の SynthID デジタル透かしが埋め込まれ、検証ツールが提供されます。

Key Points

対話的ビデオ編集: 自然言語で複数ターンにわたり編集指示を与えられ、キャラクター・物理法則・シーンの連続性を保持する。
マルチモーダル入力: 画像・動画・テキスト・音声（音声参照は先行サポート）を組み合わせて参照を反映した生成が可能。現時点では出力は主に動画、今後画像・音声出力を順次対応予定。
現実世界知識と物理理解: 重力や流体のような力学挙動をより忠実に表現し、意味的に整合するシーンを生成。
アバターと音声: ユーザー自身の声と外見でデジタルアバターを作成して動画生成が可能。音声編集機能は責任ある提供に向け段階的に検証中。
透かしと検証: すべての Omni 生成動画に SynthID が埋め込まれ、Gemini アプリ・Chrome・Google 検索で検証可能。
ロールアウト: Gemini Omni Flash は Gemini アプリと Google Flow で Google AI Plus/Pro/Ultra 契約者へ順次提供。YouTube Shorts と YouTube Create App では無償提供を開始。開発者・エンタープライズ向け API は数週間で提供予定。

Engineering Notes

今すぐ試す: エンドユーザー向けアプリ（Gemini, Google Flow, YouTube）から利用開始可能。API は近日公開予定のため、統合計画は短期的に更新が必要。
プロンプト設計: 逐次編集を前提にした指示設計（前ターンを参照する指示や参照素材の明示）で安定した出力が得られやすい。
透明性対策: 生成コンテンツの検証フロー（SynthID チェック）の組み込みを検討し、配信や保存時のメタデータ管理を行うことを推奨。

要約

Summary

Key Points

Engineering Notes

翻訳