Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

Google I/O 2025: mitos sobre produtos e desafios de integração em meio a uma bonança tecnológica

2025-05-22 862

A conferência de desenvolvedores do Google I/O 2025 apresentou inúmeras conquistas tecnológicas, incluindo muitas inovações impressionantes, destacando o profundo acúmulo do Google no campo da tecnologia principal de IA. No entanto, o dilúvio de informações e a maneira um pouco confusa de apresentar os produtos também fizeram com que o mundo externo tivesse dúvidas sobre sua estratégia geral e sua capacidade de comunicação com o mercado.

Logan Kilpatrick, funcionário da DeepMind, destacou o notável progresso que a IA do Google fez desde o ano passado: ter o modelo líder mundial, mais de 400 milhões de usuários mensais do aplicativo Gemini e um processador mensal de Token Volume de 480T (crescimento anual de 50x), mais de 7 milhões de desenvolvedores usando o Gêmeos API (crescimento de 4x). Esses números são certamente reveladores.

Google I/O 2025: mitos sobre produtos e desafios de integração na festa da tecnologia-1

No entanto, o "mapa mental" oficial fornecido pela IA do Google não consegue capturar todo o conteúdo do lançamento, e o link "revisão completa" fornecido pelo CEO acaba levando a uma lista de 27 artigos, que é uma forma de fornecer informações que levanta dúvidas sobre a eficácia de sua estratégia de marketing. Esse tipo de mensagem deixa um ponto de interrogação sobre a eficácia da estratégia de marketing do Google. Embora o mercado pareça estar otimista em relação ao desempenho do Google e o preço de suas ações tenha subido, a ambiguidade entre sua estratégia de produto e as expectativas do mercado ainda é confusa.

Como alguns observadores apontaram, o excesso de informações divulgadas ao mesmo tempo tende a fazer com que o foco se perca. Embora o Google tenha alcançado muitos avanços tecnológicos, o principal desafio que ele enfrenta ainda é saber se essas tecnologias podem ser transformadas em produtos competitivos no mercado. Um ponto de vista é que o Google está lançando uma série de protótipos que ainda não são perfeitos e depois os otimiza quando a tecnologia amadurece, o que não é uma estratégia ruim em si. A chave está em como garantir que os usuários conheçam e entendam o valor desses produtos.

Principais destaques do lançamento e interpretação inicial

O evento de lançamento do Google foi repleto de conteúdo, abrangendo as seguintes áreas:

  1. Veo 3Gera vídeos de 8 segundos de alta qualidade com voz e efeitos sonoros.
  2. FluxoVídeo: tem o objetivo de reunir os vídeos curtos do Veo 3 em um conteúdo mais longo, mas ainda não é perfeito.
  3. Gmail e integração de aplicativos relacionadosFornecimento de uma gama mais ampla de funções de assistência inteligente e com reconhecimento de contexto.
  4. Gemini 2.5 Flash e Gemini 2.5 Pro Deep ThinkingUma nova geração de modelos com desempenho aprimorado.
  5. Gemma 3mModelo de código aberto que funciona em telefones celulares com 2 GB de RAM.
  6. Difusão Gemini: um novo modelo textual com grande potencial, mas que ainda precisa ser aperfeiçoado.
  7. JulesAssistente de programação de IA que faz benchmark do Codex gratuitamente.
  8. Modo AgenteModelo "full proxy": Um modelo "full proxy" será introduzido em vários cenários.
  9. Integração do Chrome com o GeminiUse as guias abertas do navegador como contexto.
  10. Pesquisa de IAÉ gratuito para todos os usuários e incluirá um modelo de agente e um modelo de compras dedicado no futuro.
  11. tradução de fala em tempo realTradução e imitação do tom de voz do locutor: traduz e imita suavemente o tom de voz do locutor.
  12. Google Beam: uma tecnologia de comunicação 3D em tempo real.
  13. Demonstração do Android XRUma demonstração do caminho a ser seguido, mas ainda falta algum tempo para a aplicação prática.
  14. Experiência Google LiveInteração com a realidade aumentada: Oferece interação com a realidade aumentada por meio da câmera do celular.
  15. Serviço de assinatura premium de IA: US$ 250 por mês.

Alguns desses produtos e recursos já estão disponíveis e outros ainda estão a meses de distância. A situação é bastante complexa, com coexistência de produtos gratuitos e pagos com diferentes níveis de maturidade.

Inovações e desafios na mídia generativa: Flow, Veo 3 e Imagen 4

centro das atenções Veo 3Ele é capaz de gerar vídeos com áudio nativo com resultados impressionantes. O modelo de geração de imagens também foi atualizado para Imagem 4suporte para resolução de até 2K e controle de detalhes aprimorado, embora seu brilho seja um pouco ofuscado pela geração de vídeo.

Google I/O 2025: mitos sobre produtos e desafios de integração na festa da tecnologia-1

Sundar Pichai, CEO do Google, diz que o Veo 3 representa o topo do modelo de geração de vídeo. Para atender a cineastas e criativos, o Google combinou o melhor do Veo, Imagen e Gemini em um novo modelo de geração de vídeo chamado Fluxo foi disponibilizado para os assinantes do Google AI Pro e Ultra em sua nova ferramenta de criação de filmes.

Os usuários demonstraram grande entusiasmo pelo Veo 3, como a demonstração de Bayram Annakov do clipe "homem acordando com suor frio" e o compartilhamento pelo Google da expansão de um usuário de um vídeo de uma águia carregando um carro. Embora usuários como Pliny tenham gerado parte do conteúdo restrito por meio de alguns métodos de "jailbreak", isso levou a uma discussão sobre os limites da censura de conteúdo: por que alguns conteúdos criativos de PG-13 precisam ser "jailbroken" para serem exibidos?

A combinação do Flow e do Veo 3 oferece a primeira amostra do potencial prático da geração de vídeos com IA. Sua coerência, seu rico conjunto de ferramentas e a adição de efeitos sonoros anunciam novas possibilidades, e a colaboração entre a DeepMind e a Primordial Soup Labs pode dar origem a um conjunto de curtas-metragens realmente gratificante.

Além disso, o Google mencionou um sandbox de música com tecnologia Lyria 2 e apresentou o SynthID Detector, uma ferramenta para detectar conteúdo gerado por IA. Enquanto isso, o Google Vids, que transforma apresentações de slides em vídeos, e a funcionalidade de avatar de IA nele contida levantaram algumas dúvidas sobre sua utilidade e necessidade. gerar designs e interfaces de usuário a partir de instruções de texto.

Integração com o Gmail: o tão esperado salto inteligente?

Sundar Pichai anunciou que o recurso de resposta inteligente personalizada do Gmail, que permite que o Gemini acesse as mensagens de um usuário nos aplicativos do Google e componha e-mails com a voz do usuário, será lançado em breve para os assinantes.

Os recursos de "limpeza da caixa de entrada" do Google, como "excluir todas as mensagens não lidas do The Groomed Paw no último ano", são apenas a primeira etapa de uma longa linha de recursos realmente inteligentes que os usuários esperam do Gmail, como populações de calendários mais precisas, extração e lembretes de mensagens importantes e classificação e filtragem automáticas de e-mails. Groomed Paw in the past year" é apenas a primeira etapa. Requisitos mais avançados, como "Configurar filtros de IA para parar de exibir e-mails do The Groomed Paw, a menos que contenham mensagens urgentes ou descontos 50%+" ou "Alertar-me quando a Sarah responder a um compromisso de sexta-feira", ainda não foram atendidos. ", ainda não foram realizadas.

A integração do Quick Appointment Scheduling com o Gmail seria, sem dúvida, um grande avanço se realmente compreendesse as preferências do usuário e se adaptasse às agendas existentes. Quanto aos e-mails de ghostwriting da IA, eles podem ser úteis em cenários específicos (por exemplo, quando é necessária uma expressão formal, profissional ou cortês), mas o detalhamento é fundamental.

A família de modelos Gemini: uma evolução contínua

Embora o foco desse lançamento não esteja nos modelos em si, ainda há atualizações incrementais na linha Gemini.Gemini 2.5 Flash tornou-se amplamente disponível e é considerado um dos modelos rápidos e de baixo custo com melhor desempenho disponíveis. Desenvolvedores como Pliny até compartilharam maneiras de contornar suas limitações.

Google I/O 2025: mitos sobre produtos e desafios de integração na festa da tecnologia-1

Google I/O 2025: mitos sobre produtos e desafios de integração na festa da tecnologia-1

Sundar Pichai mencionou que o Gemini 2.5 Flash tem melhorias em inferência, multimodalidade, código e contextos longos. Enquanto isso.Gemini 2.5 Pro (usado em uma expressão nominal) Pensamento profundo O modelo também está aberto a testadores de confiança, e Demis Hassabis elogia o Gemini 2.5 Flash por sua velocidade e baixo custo. Observando os gráficos, o Gemini 2.5 Pro Deep Thinking (azul claro) supera o Gemini 2.5 Pro normal (azul escuro) em vários benchmarks, embora a nomenclatura seja um pouco confusa.

O Gemini 2.5 Flash está tendo um bom desempenho nos gráficos do Arena, ficando atrás apenas do Gemini 2.5 Pro, e alguns usuários estão até dizendo que o novo Gemini 2.5 Flash supera o atual Gemini 2.5 Pro nos aplicativos Gemini. A API Live também oferecerá suporte a entradas de áudio e visuais, bem como saídas de áudio nativas, e poderá controlar o tom de voz, o sotaque e o estilo, O Google também lançou um white paper sobre a segurança do Gemini.

Gemma 3n: avanços na modelagem do lado final

Gemma 3n Obtém melhorias significativas de desempenho no modelo de código aberto do lado final do Google, com uma arquitetura otimizada para dispositivos móveis, suporte para entradas multimodais (vídeo, áudio, texto, imagens) e vários tamanhos, como 4B e 2B. Sua inferência é mais rápida do que Gemma 3 O 4B é 1,5 vezes mais rápido. Por meio da tecnologia Per-Layer Embeddings (PLE) do Google DeepMind, o Gemma 3n reduz drasticamente o espaço ocupado pela RAM, permitindo que modelos com parâmetros 5B e 8B sejam executados em dispositivos móveis com uma sobrecarga de memória próxima à dos modelos 2B e 4B (apenas 2 GB e 3 GB de memória dinâmica). Além disso, o Google lançou o MedGemma para o setor de saúde, o SignGemma para a linguagem de sinais e o DolphinGemma para a comunicação com golfinhos.

Gemini Diffusion: um novo paradigma para a geração de textos?

Difusão Gemini Como um modelo de difusão de texto, ele é subestimado, mas potencialmente significativo. Diz-se que ele gera até 2.000 tokens/segundo e demonstrou bons recursos em tarefas como a correção de OCR. É interessante notar que algumas das dicas de "jailbreak" para o Gemini 2.5 também parecem funcionar para esse modelo de difusão.

Jules: um assistente de programação de IA gratuito

Google lança seu agente de programação de IA JulesO software de integração de repositório de código, com reconhecimento de contexto, foi projetado para ajudar os desenvolvedores a fornecer funcionalidade. Sua interface de usuário parece bastante vantajosa no vídeo de demonstração. O mais impressionante é que, no momento, o Jules está disponível gratuitamente, embora inicialmente possa sofrer atrasos devido à alta simultaneidade. Seu desempenho no mundo real e as comparações com concorrentes como o OpenAI Codex ainda precisam ser testados no mercado.

Deep Research e NotebookLM

Pesquisa profunda Em breve, ele permitirá a conexão com o Google Drive e o Gmail, a seleção de fontes específicas e a integração com o Canvas, o que será valioso para cenários de pesquisa que exigem a exploração profunda de informações contextuais pessoais.O NotebookLM também lançou um aplicativo independente, que foi bem recebido.

"Modo IA" da Pesquisa Google: reinventando a experiência de pesquisa

As visões gerais de IA da Pesquisa Google têm sido criticadas há muito tempo por seus erros ocasionais de baixo nível. Com a adição do Gemini 2.5, espera-se que seu desempenho melhore. O recém-lançado Modo AI supostamente diferente das visões gerais, mas suas diferenças específicas em relação ao aplicativo Gemini e ao IA de perplexidade O Google não explica claramente as diferenças entre produtos como

Sundar Pichai disse que o AI Mode será implementado para todos os usuários nos EUA e é uma refatoração completa da pesquisa para dar suporte a consultas mais longas e complexas. Atualmente, o AI Overviews atende a 1,5 bilhão de usuários por mês em mais de 200 países e territórios. A capacidade de realizar rapidamente várias pesquisas no Google para gerar contexto, e está disponível gratuitamente.

No futuro, o AI Mode planeja integrar-se ao "Project Mariner" ou ao "Agent Mode" e oferecer uma opção de "pesquisa profunda", inicialmente com foco em cenários como emissão de bilhetes, reservas em restaurantes e reservas locais. Inicialmente, ele se concentrará em emissão de passagens, reservas em restaurantes e reservas locais. Essa estratégia de entrar na função de agente a partir de cenários específicos e controlados pode ser uma abordagem mais prudente nesse estágio. Se executado corretamente, espera-se que o modo de IA da Pesquisa Google seja o ponto de entrada mais útil para muitas tarefas de IA. No entanto, a possível concorrência interna e a sobreposição de responsabilidades entre diferentes equipes de IA (AI Search, Gemini, Overviews) são possíveis preocupações.

Compras com IA: decisões mais inteligentes do consumidor

Um dos principais desdobramentos do Modo AI da Pesquisa Google, o recurso AI Shopping (que será lançado nos próximos meses) permite que os usuários pesquisem vários sites de comércio eletrônico de uma só vez com o auxílio da IA, fornecendo resultados visuais e dando suporte a perguntas de acompanhamento. Ele também monitora os preços e compra automaticamente quando o preço certo é atingido. A funcionalidade de experimentação virtual também está disponível no Search Labs.

Modo agente: a busca pela inteligência autônoma

Sundar Pichai anunciou que o Modo Agente no aplicativo Gemini, que ajudará os usuários a realizar mais tarefas na Web, estará disponível em breve para os assinantes. Uma versão multitarefa do Project Mariner já está disponível para os assinantes do Google AI Ultra nos EUA, e os recursos de uso do computador serão adicionados às APIs do Gemini. Um dos destaques do Mode é o recurso "Teach and Repeat" (Ensinar e Repetir), no qual, depois que um usuário executa uma tarefa uma vez, a IA aprende e executa uma tarefa semelhante em seu nome. No entanto, os primeiros relatórios sugerem que o Project Mariner ainda é imaturo e ainda falha em tarefas simples, por exemplo.

Project Astra / Google Live: interação visual em tempo real

Os usuários agora podem usar esse recurso gratuitamente em dispositivos Android e iOS para compartilhar filmagens de câmeras ao vivo e interagir com o Gemini por voz, permitindo que o Gemini faça pesquisas no Google, reproduza vídeos do YouTube e até mesmo faça chamadas telefônicas em seu nome. A definição exata do Project Astra parece um pouco vaga, e poderia ser um substituto para o Gemini no modo de vídeo ao vivo, ou especificamente o Google Live. A definição exata do Project Astra parece um pouco vaga, já que ele poderia ser um substituto do Gemini no modo de vídeo em tempo real, ou especificamente do Google Live, e o vídeo oficial demonstra sua "inteligência em ação" para coisas como buscas no YouTube, integração com o Gmail e realização de chamadas telefônicas para perguntar sobre o estoque. A tecnologia também está sendo integrada à função de pesquisa, que gera resultados ao apontar a câmera para um objeto e fazer uma pergunta.

Óculos Android XR: uma visão do futuro

O objetivo dos óculos Android XR é desbloquear interações mais profundas, permitindo que a tela "veja" o que o usuário vê. Apesar da natureza futurista da demonstração, não se espera que ele esteja disponível até 2026, no mínimo, e o preço é desconhecido. A partir da demonstração, sua forma atual parece mais com um produto que é legal na teoria, mas pode não funcionar tão bem na prática, com os principais cenários de aplicação provavelmente limitados ao Google Live e ao bate-papo com IA.

Gemini no Chrome: aproveitando contextos de guias abertas

O Chrome tem um novo recurso que permite que o Gemini analise não apenas a página atual, mas também faça perguntas sobre todas as guias abertas como contexto. Esse é um recurso útil, mas com o qual os usuários precisarão se acostumar.

Google Meet Real-time Translation: cruzando a barreira do idioma

O recurso de tradução de voz em tempo real do Google Meet, que supostamente combina com o tom e a velocidade da voz do usuário para um diálogo fluido entre idiomas, foi lançado para os assinantes. Embora a demonstração tenha sido convincente, os resultados reais ainda precisam ser testados. O recurso foi demonstrado juntamente com o Google Beam, uma plataforma de conferência em 3D, mas os dois não estão diretamente relacionados.

Google Beam: comunicação de "realidade" 3D cara

Derivado do Project Starline, o Google Beam tem como objetivo converter fluxos de vídeo 2D em experiências 3D realistas com um novo modelo de vídeo que suporta rastreamento milimétrico da cabeça e renderização em tempo real de 60 fps. Para isso, é necessário um equipamento especializado (supostamente baseado em seis câmeras), que inicialmente poderia custar entre US$ 15.000 e US$ 30.000 por unidade, fornecido pela HP. A necessidade e a praticidade da videoconferência em 3D, que busca o máximo em "realismo", foram questionadas. Para a maioria dos cenários de reunião, o 2D é suficiente, se não superior. É provável que o mercado potencial seja mais para espaços compartilhados de RV, jogos ou experiências específicas de exibição de filmes do que para reuniões cotidianas.

A disseminação e o crescimento da IA

Sundar Pichai revelou que o uso da IA do Google está crescendo rapidamente. Há um ano, ela processava 9,7 trilhões de tokens por mês, hoje são 480 trilhões, um aumento de 50 vezes.

Google I/O 2025: mitos sobre produtos e desafios de integração na festa da tecnologia-1

O aplicativo Gemini tem 400 milhões de usuários mensais e cresceu 451 TP3T na era Gemini 2.5, embora não seja o mesmo que o ChatGPT de 1,5 bilhão de usuários mensais ainda está longe, mas o crescimento é forte.

Estratégia de preços: gratuito e pago em paralelo

Os serviços de IA do Google continuarão com sua estratégia de execução gratuita e paga em conjunto. Os aplicativos AI Search e Gemini são gratuitos para os recursos básicos, mas os recursos premium terão um custo. O plano Pro custa US$ 20 por mês e o plano Ultra custa US$ 250 por mês, com o último oferecendo uma prévia dos novos recursos (incluindo o Modo Agente) e um limite de taxa mais alto.

Google I/O 2025: mitos sobre produtos e desafios de integração na festa da tecnologia-1

O agrupamento de serviços como o YouTube Premium em um pacote de assinatura é visto como uma medida inteligente, alinhada com a tendência de metassubscrição no estilo "Google Prime". Para a maioria dos usuários, o plano Pro será suficiente, enquanto o plano Ultra de US$ 250, com seu valor adicional na forma de limitação de taxa e acesso antecipado, não oferecerá muito valor para o usuário médio. Mas para aqueles que podem aproveitar ao máximo seus recursos avançados, o valor pode exceder em muito o custo da assinatura. Por exemplo, se você se concentrar na geração de vídeos, o plano Ultra oferece 12.000 créditos por mês, com cada vídeo de 8 segundos do Veo 3 custando 150 créditos, ou US$ 0,39 por segundo. A compra direta de pontos é mais barata, com cerca de US$ 0,19 por segundo. No entanto, o número de iterações necessárias para gerar resultados satisfatórios é um fator importante no custo real.

Pensamentos por trás da tecnologia

O Google I/O 2025 demonstrou sua determinação em avançar em todas as frentes da IA, com um bom desempenho dos modelos subjacentes. Entretanto, as linhas de produtos parecem fragmentadas e a visão geral ainda não está clara, mas o potencial é enorme. Alguns comentaristas sugeriram que os produtos do Google DeepMind poderiam ser vistos como protótipos para IA de uso geral (AGI) se ele criar uma interface de usuário unificada e robusta para agentes e otimizar as dicas do sistema.

Demis Hassabis confirmou que a visão é tornar o aplicativo Gemini um assistente de IA de uso geral, integrando a visão em tempo real do Google Live e os recursos de agente paralelo do Project Mariner.

Analistas como Ben Thompson acreditam que os principais produtos do Google ainda são os serviços de pesquisa e de nuvem. Esse ponto de vista não deixa de ter mérito, mas outros produtos de IA têm o mesmo potencial de sucesso após a iteração e a otimização. Uma questão importante é que o uso eficaz da IA exige pensamento ativo e exploração por parte do usuário, o que é um limite para os usuários que estão acostumados a receber informações passivamente. Os dispositivos (como o Android e os futuros óculos XR) podem ser um veículo importante para promover esses recursos. Nesse contexto, ainda há espaço para as startups criarem produtos de software de IA que abordem problemas específicos.

O Google fez um excelente trabalho ao aprimorar a pesquisa, mas ainda não se sabe se ele conseguirá traduzir seus poderosos recursos de modelagem em outros produtos igualmente excelentes. Isso é tanto um desafio quanto uma oportunidade.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil