Gemini Live API の概要 (original) (raw)

Live API を使用すると、Gemini と音声とビジョンによるやり取りを低レイテンシかつリアルタイムで行うことができます。音声、画像、テキストの連続ストリームを処理して、人間のような音声による応答を即座に提供し、ユーザーに自然な会話体験を提供します。

Live API の概要

ユースケース

Live API を使用して、次のようなさまざまな業界向けのリアルタイム音声エージェントを構築できます。

主な機能

Live API は、堅牢な音声エージェントを構築するための包括的な機能セットを提供します。

技術仕様

次の表に、Live API の技術仕様の概要を示します。

カテゴリ 詳細
入力モダリティ 音声(RAW 16 ビット PCM 音声、16kHz、リトル エンディアン)、画像(JPEG <= 1FPS)、テキスト
出力モダリティ 音声(RAW 16 ビット PCM 音声、24kHz、リトル エンディアン)
プロトコル ステートフル WebSocket 接続(WSS)

実装アプローチを選択する

Live API と統合する際は、次のいずれかの実装方法を選択する必要があります。

始める

開発環境に一致するガイドを選択してください。

サーバー間

GenAI SDK のチュートリアル

GenAI SDK を使用して Gemini Live API に接続し、Python バックエンドでリアルタイムのマルチモーダル アプリケーションを構築します。

クライアントからサーバーへ

WebSocket のチュートリアル

WebSocket を使用して Gemini Live API に接続し、JavaScript フロントエンドとエフェメラル トークンを使用してリアルタイムのマルチモーダル アプリケーションを構築します。

Agent Development Kit

ADK のチュートリアル

エージェントを作成し、Agent Development Kit(ADK)ストリーミングを使用して音声と動画の通信を有効にします。

パートナーとの統合

リアルタイムの音声アプリと動画アプリの開発を効率化するには、WebRTC または WebSocket 経由で Gemini Live API をサポートするサードパーティ統合を使用します。

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。

最終更新日 2026-06-12 UTC。