Gemini Live API の概要 (original) (raw)

Live API を使用すると、Gemini と音声とビジョンによるやり取りを低レイテンシかつリアルタイムで行うことができます。音声、画像、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供し、ユーザーに自然な会話体験を提供します。

Live API の概要

ユースケース

Live API を使用して、次のようなさまざまな業界向けのリアルタイム音声エージェントを構築できます。

Live API は、堅牢な音声エージェントを構築するための包括的な機能セットを提供します。

次の表に、Live API の技術仕様の概要を示します。

カテゴリ	詳細
入力モダリティ	音声（RAW 16 ビット PCM 音声、16kHz、リトルエンディアン）、画像（JPEG <= 1FPS）、テキスト
出力モダリティ	音声（RAW 16 ビット PCM 音声、24kHz、リトルエンディアン）
プロトコル	ステートフル WebSocket 接続（WSS）

Live API と統合する際は、次のいずれかの実装方法を選択する必要があります。

サーバー間: バックエンドが WebSockets を使用して Live API に接続します。通常、クライアントはストリームデータ（音声、動画、テキスト）をサーバーに送信し、サーバーはそれを Live API に転送します。
クライアントからサーバーへ: フロントエンドコードが WebSockets を使用して Live API に直接接続し、バックエンドをバイパスしてデータをストリーミングします。

開発環境に一致するガイドを選択してください。

サーバー間

GenAI SDK を使用して Gemini Live API に接続し、Python バックエンドでリアルタイムのマルチモーダルアプリケーションを構築します。

クライアントからサーバーへ

WebSocket を使用して Gemini Live API に接続し、JavaScript フロントエンドとエフェメラルトークンを使用してリアルタイムのマルチモーダルアプリケーションを構築します。

Agent Development Kit

エージェントを作成し、Agent Development Kit（ADK）ストリーミングを使用して音声と動画の通信を有効にします。

リアルタイムの音声アプリと動画アプリの開発を効率化するには、WebRTC または WebSocket 経由で Gemini Live API をサポートするサードパーティ統合を使用します。

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。

最終更新日 2026-06-12 UTC。