リアルタイム・オーディオ/ビデオ・エージェントを構築する手順は以下の通りである:
- オーディオ入力デバイス(PyAudioなど)とビデオ入力ソース(カメラなど)を初期化する。
- 複合入力モジュール:
VideoIn() + PyAudioIn()オーディオおよびビデオ入力の処理 - LiveProcessorを設定する: APIキーとモデル名を指定する (例: gemini-2.5-flash-preview-native-audio-dialog)
- 出力モジュールを追加する。
PyAudioOutオーディオ出力用 - モジュールは配管を介して接続される:
input_processor + live_processor + play_output - 利用する
async forリアルタイム・ストリーミング・データの繰り返し処理
このソリューションは、マイクとカメラの入力を同時に処理し、Gemini APIを介して応答を生成した後に音声を出力できるリアルタイム会話エージェントの開発に適している。実装では、ネットワーク遅延とハードウェア性能がリアルタイム性能に与える影響を意識する必要がある。
この答えは記事から得たものである。GenAI Processors:マルチモーダルコンテンツの効率的な並列処理をサポートする軽量Pythonライブラリについて





























