Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Gemini Playground的多模态对话具体支持哪些交互方式?如何开启这些功能?

2025-09-09 1.6 K

多模态交互能力详解

Gemini Playground全面支持自然语言处理时代最前沿的多模态交互方式,主要包括:

  • diálogo de texto:基础的问答交流模式
  • entrada de voz:通过浏览器麦克风进行语音识别
  • 视觉交互:调用设备摄像头捕捉图像信息
  • compartilhamento de tela:实时分享屏幕内容进行分析

功能启用指南

在成功部署并打开Playground界面后:

  1. 点击右上角的”Connect”按钮建立API连接
  2. 页面会自动检测可用设备,出现麦克风/摄像头权限请求弹窗时选择允许
  3. 对话界面会显示多媒体控制按钮(话筒图标、相机图标等)
  4. 首次使用建议在Chrome或Edge等现代浏览器中进行功能测试

Princípio de realização técnica

项目通过浏览器原生的WebRTC技术获取多媒体流,将其转换为base64编码后与文本指令一起发送给Gemini API处理。这种实现方式既保证了响应速度,又不需要额外的服务器中转多媒体数据。

Exemplo de cenários de uso

用户可以直接拍摄物品照片询问相关信息,或者朗读一段文字让AI分析情感倾向,甚至分享编程界面实时获取代码建议。

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil