OpenAIGeminiMay 19, 2026, 5:45 PM

I/O 2026: Welcome to the agentic Gemini era

A condensed section focused on the key takeaways first.

Original Post

Quick Digest

Summary

A condensed section focused on the key takeaways first.

openaienmodel: gpt-5-mini-2025-08-07

I/O 2026: Welcome to the agentic Gemini era

Key Points

  • Gemini Omni Flash launches (video-capable multimodal, APIs soon)
  • Gemini 3.5 Flash: frontier-level, ~4x token/sec and <50% cost
  • SynthID & Content Credentials expand; OpenAI, Kakao, Eleven Labs adopt

Summary

Google I/O 2026 introduces the "agentic" Gemini era: multimodal models, faster/cheaper frontier models, expanded provenance tooling, and major infrastructure upgrades. Key releases include Gemini Omni Flash (video-capable multimodal), Gemini 3.5 Flash (frontier-level + high throughput), SynthID/Content Credentials expansion, TPU 8t/8i, and new voice/agent product surfaces. This note highlights concrete impacts and recommended engineering actions.

Key Points

  • Gemini Omni Flash: a new multimodal world model able to generate video outputs from any input. Available today in the Gemini app, Google Flow, and YouTube Shorts; APIs for developers and enterprises rolling out in the coming weeks.
  • Gemini 3.5 Flash: improved benchmarks vs 3.1 Pro, significant coding and long-horizon task gains, and ~4x output tokens/sec vs other frontier models. Positioned as frontier-class intelligence at less than half the cost of comparable frontier models.
  • SynthID & Content Credentials: watermarking and provenance verification expanded to Search and Chrome. New partners adopting SynthID include OpenAI, Kakao, and Eleven Labs (NVIDIA previously). Integrate detection and credentials where you surface AI-generated media.
  • TPU and infra updates: TPU 8t (training) offers ~3x raw compute vs prior generation; TPU 8i is optimized for low-latency inference. Training now distributes across >1M TPUs via JAX/Pathways. Both chips deliver up to 2x performance-per-watt. Google capex projected ~$180–190B this year to scale infrastructure.
  • Usage & scale signals: model traffic ~3.2 quadrillion tokens/month; model APIs ~19B tokens/min; 8.5M developers building monthly; Gemini app ~900M MAU; Search AI Mode >1B MAU.
  • Product rollouts affecting flows: Docs Live (voice-first doc creation) rolling out to subscribers this summer; Ask YouTube testing with broad U.S. rollouts planned; voice capabilities coming to Gmail and Keep.

Practical impact for engineers

  • Evaluate 3.5 Flash for agentic workflows and cost-sensitive production workloads; consider mixing Flash with other frontier models to reduce token spend.
  • Plan integration of SynthID/Content Credentials into ingestion and UX flows to provide provenance and comply with platform signals.
  • Prepare inference pipelines for low-latency deployment (TPU 8i or equivalent accelerators) and re-benchmark for the new throughput targets.
  • Prototype multimodal/video use-cases with Omni when APIs become available; expect higher compute and storage needs for generated video.
  • Monitor quota, pricing, and SDK updates as APIs for Omni and 3.5 Flash roll out; test Antigravity-style agent-first patterns where appropriate.

Action items

  • Short term: subscribe to API previews, baseline performance/cost for 3.5 Flash, add SynthID detection to content QA.
  • Mid term: benchmark inference on TPU 8i or cloud-equivalent GPUs, design storage and content pipelines for video outputs, and integrate Content Credentials display in clients.
  • Long term: explore agent-first architectures and multimodal product pivots aligned with Omni capabilities.

Full Translation

Translations

A translation section that keeps the flow of the original article.

openaijamodel: gpt-5-mini-2025-08-07

I/O 2026: エージェント化された Gemini の時代へようこそ

Breadcrumb: イノベーションとAI

I/O 2026: エージェント化された Gemini の時代へようこそ
公開日: 2026-05-19T17:45:00.000Z

共有: x.com Facebook LinkedIn メール リンクをコピー

――ご紹介――

この記事では、Gemini を使ってより多くのことを実現するために私たちが行っている取り組みを説明します。

Sundar Pichai(Google と Alphabet CEO)

この記事について:

  • AI とプロダクトの勢い
  • 会話型AI
  • インフラとイノベーション
  • Gemini モデル
  • エージェント
  • 私たちのエージェント化された Gemini 時代のさらなる発表

このコンテンツは Google AI によって生成されています。生成AIは実験的です。[[duration]] 分
音声速度: 0.75X 1X 1.5X 2X

Editor's note: 以下は Google CEO Sundar Pichai の I/O 2026 での発言の編集済み文字起こしで、ステージ上で発表された内容をより多く含むように調整したものです。すべての発表は私たちのコレクションでご覧ください。

この1年の振り返り

前回の I/O からこの1年は並外れた期間でした。継続的なプロダクトの提供、技術的な進歩、そして急速な前進が続いています。今は、人々が日常的に使うプロダクトで価値を実感したいと考える AI サイクルの段階にあります。私たちはその点に強く注力しており、本日の I/O で発表するプロダクトや機能にそれが表れています。

10年前に我々は AI-first にピボットして以来、AI は私たちのミッションを進め、人々の生活を大規模に向上させる最も深遠な方法だと考えています。だからこそ、カスタムシリコンと安全な基盤、世界クラスの研究とモデル、そして数十億人に届くプロダクトとプラットフォームに至るまで、差別化されたフルスタックのアプローチで AI イノベーションに取り組んでいます。これにより、会社のあらゆる部分でより速く反復・革新できるようになっています。

驚くべきことに、人々が AI をどう使っているかは多様です。学生が Gemini アプリで期末試験の準備をしたり、ミュージシャンやアーティストが Lyria や Veo のような生成モデルを創作フローの一部として使ったり、開発者がコードを書いてアイデアを実現したりしています。

フルスタックでの AI の勢い

これらの利用事例は、進捗の最良の尺度です。人々がどの規模で AI を採用しているかを理解する別の大きな指標はトークンです。トークンはモデルが処理するデータの基本単位で、多くは解決されるべき問題を表します。

  • 2年前、私たちは月間 9.7 兆トークンを処理していました。これは既に大きな数でした。
  • 昨年の I/O では約 480 兆トークンに増加しました。
  • そして今日、その数はさらに7倍に跳ね上がり、月間 3.2 京(3.2 quadrillion)トークン超になりました。

これは私たちのプロダクトと、開発者や企業など外部がどのように構築しているかについて重要な物語を語っています。

  • 月間で 850 万人超の開発者が私たちのモデルを使って新しいアプリや体験を構築しています。
  • モデル API は現在、1 分あたり約 190 億トークンを処理しています。
  • 過去 12 か月で、Google Cloud の顧客のうち 375 社以上がそれぞれ 1 兆トークン超を処理し、業界を超えた AI 需要の大きさを示しています。

プロダクトでの勢い

現在、私たちには各々 10 億人以上のユーザーを持つプロダクトが13 個あります。そのうち 5 つは 30 億人以上です。Gemini モデルは、より多くの人が私たちのプロダクトを使い、より頻繁に使う大きな理由です。

すべては Search から始まります。Search は生成AIの利点を世界で最も多くの人に届けています。

  • AI Overviews は月間アクティブユーザー 25 億人超を獲得しています。
  • AI Mode は、Search におけるこれまでで最大のアップグレードであり、リリースから1年で既に月間アクティブユーザー 10 億人を突破しました。

Search で AI 機能を使うと、Search の利用頻度が上がります。Search は単発のクエリ中心から、より継続的な会話のようなものへと変わり、深い洞察を与え、ウェブの広がりとつなげます。

もう一つ急速にイノベーションを進めているのが Gemini アプリです。

  • 昨年の I/O 時点で Gemini アプリは月間アクティブユーザー 4 億人でしたが、現在は 9 億人を突破し、1年で倍以上になりました。
  • 同期間でデイリーのリクエストは 7 倍以上に増加しました。

私たちは Personal Intelligence のようなユニークな機能を多数追加し、応答をよりカスタマイズされ役立つものにしています。また、Nano Banana 画像生成モデルでこれまでに 500 億枚(50 billion)の画像が生成されています。昨年はこれがブレイクアウトスターとなり、世界中に蓄積された創造性の大きさを示しました。

製品内での自然な会話型 AI

生産性にも多くの未開拓の余地があります。ここ1年で、私たちは製品内に Gemini のより自然な会話機能を直接組み込んできました。

  • Maps ではこの数年で最大のアップグレードを実施し、Ask Maps という新機能を追加しました。人々はより複雑でより長い質問に Ask Maps を使っています。
  • そして、より多くのプロダクトに自然な会話型 AI を導入しています。

Ask YouTube

人々は毎日 YouTube に多数の質問を持ち寄ります。優れた動画は多く存在しますが、どこから始めるべきか分からないことがあります。Ask YouTube は体験を完全に再構築し、情報をより消化しやすく、ナビゲートしやすくします。あなたの関心に最も合う動画を表示し、重要なのは動画のあなたにとって最も関連する部分へ直接ジャンプする点です。現在テストを開始しており、この夏に米国で幅広く展開する予定です。

Voice-powered Docs Live

音声の速度で作業を進めたい場面は多くあります。これは音声モデルの技術的進歩によって以前よりずっと可能になりました。Docs Live という新機能はこれをさらに進めます。従来、Gemini でドキュメントを作るには正確なプロンプトを打ち込む必要がありましたが、Docs Live では口頭で「ブレインダンプ」するだけで、あとは Gemini に任せられます。

デモはリアルタイムで行われました。将来的には、新しいドキュメントの作成や編集をすべて音声で行えるようになります。Docs Live は今夏サブスクライバー向けに展開予定で、同時に Gmail と Keep にも強力な音声機能を導入します。

大規模イノベーションを支えるインフラ

これらのプロダクト全体にわたるイノベーションの速度を見るのは素晴らしいことです。ユーザー向けのあらゆるスケールと、世界中の企業や開発者への提供を同時に支えるには、インフラへの巨額投資が必要です。私たちは現在と未来の両方に投資してきました。

  • 2022 年は年間約 310 億ドルの設備投資(capex)をしていました。今期はその約6倍、つまり約 1,800 億〜1,900 億ドルを見込んでいます。

この投資の鍵の一つがカスタムシリコンです。10 年前、I/O のステージで初の商用 TPU を発表しました。それ以来、産業界の AI 構築のあり方を変えてきました。最近、Cloud Next で第8世代 TPU を発表しました。初めて、トレーニングと推論で専用アーキテクチャを採るデュアルチップアプローチ(TPU 8t と 8i)を導入しています。

  • TPU 8t は大規模事前学習に最適化され、前世代のほぼ3倍の生の計算能力を持ちます。
  • 私たちはトレーニングインフラで根本的に異なるアプローチを取り、JAX と Pathways により、トレーニングが単一巨大データセンターの制約を受けなくなりました。代わりに複数サイトにトレーニングをシームレスに分散でき、世界で 100 万台を超える TPU にわたるトレーニングのスケールが可能になりました。これにより世界最大のトレーニングクラスターを作る能力を得ています。

これによりモデルビルダーは、より大きくより高機能なモデルを数か月ではなく数週間でトレーニングできるようになります。

  • TPU 8i は推論向けに設計されており、あらゆる段階で劇的に速度が向上しています。Search の27 年で学んだことの一つはレイテンシーが重要だということです。
  • 速度に加えて、持続可能なスケーリングも考えています。両チップはエネルギー効率が向上しており、ワット当たりの性能が最大で2倍向上しています。

Gemini Omni

TPU の進歩により、モデル、コーディング、エージェント全体で計算の進化を行えます。世界モデルにより、AI はテキストを予測する段階から現実をシミュレートする段階へと移行しています。私たちはこれらのモデルができることの限界を押し広げるために取り組んできました。

Gemini Omni は、あらゆる入力からあらゆる出力モダリティのサンプルを生成できる新しいモデルです。まずはビデオ出力から始め、時間をかけて画像やテキストも可能にしていきます。この新モデルは Gemini の知性と私たちの生成メディアモデルを組み合わせ、世界理解における大きな前進を実現します。

私たちは Omni ファミリーの最初のモデル、Gemini Omni Flash を発表します。

  • Gemini Omni Flash は本日より利用可能です。Gemini アプリ、Google Flow、YouTube Shorts でお試しいただけます。
  • 数週間以内に開発者や企業顧客向けに API 経由でも順次提供します。

SynthID の更新とパートナー

生成AI が進化するにつれ、透明性の必要性も高まります。研究によれば、高品質なディープフェイク動画を正しく識別できる確率はせいぜい4分の1程度です。3 年前に私たちは SynthID(肉眼では見えない透かし)を導入しました。導入以来、SynthID は画像や動画で 1,000 億件超、音声資産で6万年分相当に透かしを付与しています。

  • 数百万人が Gemini アプリの SynthID 検出器を使って AI 生成コンテンツを検証しています。
  • さらに踏み込んで、Content Credentials の検証を製品横断で追加します。これによりコンテンツの起源が AI かカメラか、生成AI ツールで編集されたかどうかが表示されます。

より多くの人にこれらのツールを簡単に使ってもらうため、Content Credentials と SynthID の検証を Search と Chrome に拡張します。

もちろん、これが大規模で機能するには、より多くのパートナーが自らの AI 生成コンテンツに透かしを付ける決断をする必要があります。Nvidia は昨年 SynthID に参加しました。本日、OpenAI、Kakao、Eleven Labs も SynthID を採用することを発表できることを嬉しく思います。業界横断の協力が進んでいるのは素晴らしいことです。今後さらに多くのパートナーへ拡大し、AI 時代の透明性の標準を確立していきたいと考えています。

Gemini 3.5 Flash

Gemini 3 は数か月前にローンチされ、フルファミリーのモデルを備え、これまでで最も多く採用されたシリーズになりました。多くの開発者が Flash を日常的に使い、Pro の深い推論やマルチモーダル能力を活かして素晴らしい体験を構築しているのを見てきました。

私たちはこれらのモデルを改善するために懸命に取り組んできました。特にエージェント型コーディング、長期的タスク、実世界のワークフローに注力しています。本日、フロンティア級の知性とアクション能力を組み合わせたシリーズの第1弾として、Gemini 3.5 Flash を紹介します。

注目点は2つあります:

  1. 3.1 Pro と比較すると、3.5 Flash はほとんどのベンチマークで優れています。コーディングで大きく進歩しており、GDPVal の飛躍的な向上が見られます。GDPVal は多くの現実世界の経済的に価値あるタスクを捉えます。
  2. 3.5 Flash はフロンティア級の能力を持ちながら非常に高速です。インテリジェンスと出力速度の観点で見ると、右上の象限で群を抜いています。出力トークン毎秒で見ると、他のフロンティアモデルの4倍の速度です。

新モデルは社内でもゲームチェンジャーになっています。私たちは再考されたエージェント優先の開発プラットフォーム Antigravity と 3.5 Flash を組み合わせて使っており、構築のスピードが劇的に加速しました。

  • 3 月には社内で AI 開発ツール全体で日次 5 千億トークンを処理していましたが、その後数週間ごとに倍増し、現在は日次 3 兆トークンを超えて処理しています。
  • この規模がフィードバックループを生み、3.5 の改良を加速しました。

Flash の驚くべき点は、フロンティア級の能力を同等のフロンティアモデルの半分以下の価格で提供することです。多くの企業が年間トークン予算をあっという間に使い切っていると聞いていますが、まだ5月です。企業が Flash と他のフロンティアモデルを組み合わせて使えば、大幅なコスト削減が可能です。

ここまでの説明で、上位企業がどれほどの規模で処理しているかを示すための文脈が整いますが、原文は「To put this in perspective, top companies are processing」で終わっており、そこまでを翻訳しました。