OpenAIGemini2026/05/29 17:30

9 demos of Gemini Omni and Gemini 3.5 in action

要点だけを先に読めるように短く再構成したセクションです。

元記事

Quick Digest

要約

要点だけを先に読めるように短く再構成したセクションです。

openaijamodel: gpt-5-mini-2025-08-07

Gemini Omni と Gemini 3.5 Flash の 9 デモまとめ

Key Points

  • 会話で動画編集
  • 長期エージェント性能
  • Antigravityでスケール

Summary

Gemini Omniはマルチモーダル入力(動画/画像/音声/テキスト)から高品質な動画を生成・会話で編集でき、シーンの一貫性と物理整合性を保ちながら反復的な修正が可能です。Gemini 3.5 Flashは高速でフロンティア性能を持ち、長期のエージェント的ワークフローやコーディングタスクをAntigravityハーネスと組み合わせて大規模に実行します。この記事は両者の実用的デモ(計9件)を通じて主要ユースケースと展開状況を示しています。

Key Points

  • Omni: 自然言語による動画編集。キャラクター・物理・カメラの整合性を維持しつつ複数ターンで細かく改変可能。
  • 3.5 Flash: 長期のエージェントタスクや複雑なコーディングワークフローに強く、Flashシリーズの速度を保ったまま高性能を提供。
  • Antigravity連携: サブエージェントを使った監視付きマルチステップ実行でスケール運用が可能。
  • デプロイ/アクセス: Omni FlashはGoogle AI Plus/Pro/UltraやYouTube Shorts/Createへ展開中。3.5 FlashはAntigravity、Gemini API、AI Studio、Android Studio、Enterpriseプラットフォームで利用可能。
  • エンジニア向けの実装示唆: 動画ワークフローは「会話で指示→反復編集」を前提に設計。エージェント機能は情報エージェントや常駐個人エージェント(Gemini Spark)への統合を検討。
  • 運用注意: API・エンタープライズ向けの段階的ロールアウトに伴い、認可・データ接続・監査ロギングを設計して運用監視を行うこと。

Full Translation

翻訳

原文の流れを保ったまま読める翻訳セクションです。

openaijamodel: gpt-5-mini-2025-08-07

Gemini Omni と Gemini 3.5 の実演:9つのデモ

概要

2026年の Google I/O で発表された最新モデル、Gemini Omni と Gemini 3.5 ファミリー(特に 3.5 Flash)を紹介します。Gemini Omni は映像を含むマルチモーダル入力から高品質な映像生成・編集を対話的に行えるモデルで、Gemini 3.5(3.5 Flash)はエージェント的なワークフロー実行能力に優れたモデルです。本記事では、これらのモデルが何をできるかを示す9つのデモと主要機能をまとめます。

Gemini Omni

  • マルチモーダル入力:images、audio、video、text を組み合わせて利用可能。
  • 会話ベースの映像編集:自然言語で指示を与えるだけで、前の編集内容を踏まえつつ連続的に映像を改変できます。キャラクターや物理挙動の一貫性を保ち、シーンの履歴を記憶します。
  • できることの例:特定要素のみの変更、新キャラクターやオブジェクトの追加、瞬間をまったく別のものに変換するなど、撮影では実現できなかった創作が可能。

デモとプロンプト例

  • プロンプト(編集指示)の連続適用でシーンを細かくリファイン:
    • Prompt: Make the sculpture out of bubbles.

    • Prompt: Reimagine the action.

    • Prompt: Dim the lights in the room.

    • Prompt: Put a black and white checkerboard room inside a glass sphere that floats tracking above the hand, inside it contains a recursive representation of the same hand holding the sphere, creating an infinite recursive of rooms. Camera slowly gets closer into the sphere, creating a video loop.

  • 編集の積み重ねの例(キャプション的に示されたワークフロー):
    • Prompt: A video of a violinist playing a song.

    • Prompt: Transport the violinist to the image environment

    • Prompt: Make the violin invisible

    • Prompt: Change the camera angle to be over the violinist’s shoulder.

  • ポイント:何度のターンでも元のシーンの文脈を失わず、環境、角度、スタイル、細部を変更できる。

Gemini 3.5 Flash

  • 目的:エージェント的(agentic)な長期・多段階タスクを高速かつ高性能に実行するためのモデル。Flash シリーズ特有の低遅延と高性能のバランスを備えています。
  • Antigravity ハーネスとの組み合わせ:Antigravity と組み合わせることで、協調するサブエージェントを展開し、大規模かつ要求の厳しいユースケースで多段階ワークフローやコーディングタスクを信頼性高く実行できます。

応用例

  • 自動タグ付け・名称変更ワークフロー:動的基準に基づき、非構造化アセットを自動でリネーム・カテゴライズするマルチステップ処理を実行。
  • インタラクティブな Web UI/グラフィックス生成:Gemini 3 を基盤に、3.5 Flash は短時間で複数のUX案を生成(例:AI Studio で 60 秒以内にチェックアウトフローの異なるUX案を生成)。
  • パーソナル AI エージェントと新しいインテリジェント体験:
    • 3.5 Flash は世界中の Gemini アプリと Search の AI Mode のデフォルトモデルとして稼働。
    • 検索内の情報エージェント(information agents)はバックグラウンドで 24/7 動作し、必要な情報を的確なタイミングで収集・要約、関連リンクを添えて報告します。これらはまず Google AI Pro & Ultra サブスクライバー向けに夏に提供開始予定です。
  • カスタム生成 UI:Search 内で質問に最適な形式の応答(視覚ツールやシミュレーションを含むカスタム生成 UI)をその場で構築。今夏には全ユーザー向けに無料で提供予定。
  • 継続タスク向けミニアプリ:結婚式の計画やフィットネスルーティンなど、ダッシュボード、トラッカー、ミニアプリを Search 上で作成・継続利用可能。最初は米国の Google AI Pro/Ultra サブスクライバー向けに展開。

具体的なユースケース(文例)

  • 情報エージェント:ユーザーのお気に入りアスリートがスニーカーコラボやシグネチャードロップを発表した際に通知・更新を行う。
  • Gemini Spark(Gemini 3.5 と Antigravity ハーネスで動作する個人用 AI):
    • 24/7 動作し、Gmail、Docs、Slides など Workspace と深く統合してユーザーのデジタルライフを支援。
    • 例:Gemini Spark がナッツフリーのスナック候補を作成し、Instacart に追加する。

利用と展開状況

  • Gemini Omni Flash:Gemini アプリと Google Flow 経由で、Google AI Plus、Pro、Ultra の加入者へグローバルに展開中。YouTube Shorts と YouTube Create App のユーザーには無償提供中。今後数週間で開発者・企業向けに API 経由で展開予定。
  • Gemini 3.5 Flash:一般提供中。利用可能経路は以下の通り:
    • Google Antigravity
    • Gemini API(Google AI Studio と Android Studio)
    • Gemini Enterprise Agent Platform
    • Gemini Enterprise
    • AI Mode in Search(全ユーザー向け)
    • Gemini app(グローバル展開中)

まとめ

Gemini Omni はクリエイティブなマルチモーダル制作と会話ベースの映像編集を可能にし、Gemini 3.5 Flash は高速で高性能なエージェント的ワークフローとコーディング能力を提供します。両者を組み合わせることで、クリエイションから自動化・実行までの幅広いユースケースが現実化しています。