Gemini 3.1 Flash‑Lite:大規模向けの高速・低コストモデル(プレビュー)
Key Points
- プレビュー提供開始
- 低コスト・低遅延
- 高スループット適応
Summary
Gemini 3.1 Flash‑Lite がプレビュー公開されました。開発者は Gemini API(Google AI Studio)経由、企業は Vertex AI 経由で利用可能です。料金は入力 $0.25 / 1M トークン、出力 $1.50 / 1M トークンで、2.5 Flash 比で応答初動が2.5×高速、出力速度は45%向上しています。Elo 1432、GPQA Diamond 86.9%、MMMU Pro 76.8% といったベンチマークで高い性能を示します。
Key Points
- 提供方法: Gemini API(AI Studio)で開発者向けプレビュー、Vertex AI でエンタープライズ向け提供。
- 価格: 入力 $0.25 / 1M トークン、出力 $1.50 / 1M トークン(低コスト設計)。
- 性能: 2.5×早いTime to First Answer Token、出力速度 +45%、Elo 1432。マルチモーダルと推論ベンチマークで高評価。
- 推奨ユースケース: 高頻度・低遅延ワークロード(大量翻訳、コンテンツモデレーション、リアルタイムダッシュボード、UI生成、シミュレーション、SaaSエージェント、画像分類など)。
- 制御性: AI Studio / Vertex AI の "thinking levels" により思考深度を調整可能。高スループット時は低設定、複雑処理は高設定を検討。
- 実装上の注意: 低遅延目標ではストリーミングやバッチ戦略、出力トークン削減を併用してコストを最適化。プレビューのため仕様変更や追加制限の可能性あり。
- 導入事例: 既に一部企業が実運用で評価・採用中。試験導入を推奨。
短く言えば、Flash‑Lite はコスト効率と低遅延を重視する大量処理向けの実用的な選択肢です。