CosyVoice: ferramenta de geração e clonagem multilíngue de código aberto Ali
O CosyVoice é um modelo de geração de fala multilíngue de código aberto que se concentra na tecnologia de conversão de texto em fala (TTS) de alta qualidade. Ele suporta a síntese de fala em vários idiomas, fornecendo recursos como geração de fala com amostra zero, clonagem de fala em vários idiomas e controle de sentimento refinado. O CosyVoice 2.0 é comparado à versão anterior, significativamente...
Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue
O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe do Alibaba Cloud Qwen e disponibilizada por meio da API do Qwen. Ela é treinada em um conjunto de dados de fala em grande escala, com uma saída de voz natural e expressiva que ajusta automaticamente a entonação, a velocidade da fala e a emoção.
Kyutai: ferramenta de conversão de fala em texto em tempo real
O projeto delayed-streams-modelling da Kyutai Labs é uma estrutura de conversão de fala para texto de código aberto, com um núcleo baseado na tecnologia DSM (Delayed Stream Modelling). Ele oferece suporte à funcionalidade de fala para texto (STT) e texto para fala (TTS) em tempo real, adequada para a criação de aplicativos eficientes de interação por voz. O projeto fornece p...
DeepSeek-TNG-R1T2-Chimera: Aprimoramentos do DeepSeek lançados pela TNG Alemanha
O DeepSeek-TNG-R1T2-Chimera é um modelo de linguagem grande de código aberto desenvolvido pela TNG Technology Consulting GmbH e hospedado na plataforma Hugging Face. O modelo foi lançado em 2 de julho de 2025 e faz parte do projeto D...
Index-AniSora: Ferramenta de geração de vídeo de anime de código aberto Bilibili
O Index-AniSora é um modelo de geração de vídeo de anime desenvolvido e de código aberto pela Bilibili, hospedado no GitHub. Ele usa o CogVideoX-5B e o Wan2.1-14B como modelo de base e oferece suporte à geração de diversos vídeos de estilo anime, incluindo episódios de anime, animação original doméstica, adaptações de mangá, VTube...
GLM-4.1V-Thinking: um modelo de inferência visual de código aberto para dar suporte a tarefas multimodais complexas
O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...
ERNIE 4.5
O ERNIE 4.5 é uma grande família de modelos de código aberto desenvolvida pela Baidu com base na estrutura PaddlePaddle, abrangendo uma ampla gama de modelos de 0,3B a 424B parâmetros, suportando processamento de texto, geração de imagens e tarefas multimodais. O projeto está hospedado no GitHub, combinado com o Hugging Face para fornecer modelos ...
Hunyuan-A13B: modelos eficientes de linguagem grande de código aberto para contextos ultralongos e raciocínio inteligente
O Hunyuan-A13B é um modelo de linguagem grande de código aberto desenvolvido pela equipe híbrida da Tencent, com base no projeto de arquitetura Mixed Expert (MoE). O modelo tem 8 bilhões de parâmetros, dos quais 1,3 bilhão são parâmetros ativos, levando em conta o alto desempenho e o baixo custo computacional. O Hunyuan-A13B suporta processamento de contexto ultralongo de 256K, adequado para...
Lançamento do FLUX.1 Kontext e do BFL Playground
Hoje, temos o orgulho de lançar o FLUX.1 Kontext - um conjunto de modelos de correspondência de fluxo generativo para oferecer suporte à geração e edição de imagens. Diferentemente dos modelos de geração de imagens baseados em texto existentes, a família FLUX.1 Kontext oferece suporte a...
PartCrafter: geração de modelos de peças 3D editáveis a partir de uma única imagem
O PartCrafter é um projeto inovador de código aberto voltado para a geração de modelos de peças 3D editáveis a partir de uma única imagem RGB. Ele usa tecnologia avançada de geração de 3D estruturada para gerar várias peças 3D semanticamente significativas simultaneamente a partir de uma única imagem, adequada para desenvolvimento de jogos, design de produtos e outros campos. O projeto é baseado em pré-treinamento...
Seedance 1.0
O Seedance 1.0 é uma ferramenta de geração de vídeo com IA desenvolvida pela equipe do Seed na ByteDance, com foco na conversão de texto ou imagens em conteúdo de vídeo de alta qualidade. Os usuários só precisam inserir uma descrição de texto ou carregar uma imagem, e o Seedance pode gerar vídeos com resolução de até 1080p, o que é adequado para a criação de conteúdo criativo, .....
Gemma 3n
O Google está expandindo sua pegada para IA inclusiva com o lançamento do Gemma 3 e do Gemma 3 QAT, modelos de código aberto que são executados em uma única nuvem ou acelerador de desktop. Se o Gemma 3 trouxe recursos avançados de nuvem e desktop para os desenvolvedores, este lançamento de 20 de maio de 2025...
MoviiGen 1.1
O MoviiGen 1.1 é uma ferramenta de IA de código aberto desenvolvida pela ZuluVision que se concentra na geração de vídeos de alta qualidade a partir de texto. Ela é compatível com as resoluções 720P e 1080P e é especialmente adequada para a produção de vídeos profissionais que exigem efeitos visuais cinematográficos. Os usuários podem gerar vídeos a partir de descrições de texto simples com dinâmica natural...
HiDream-I1
O HiDream-I1 é um modelo básico de geração de imagens de código aberto com 17 bilhões de parâmetros que pode gerar rapidamente imagens de alta qualidade. Os usuários só precisam inserir uma descrição textual, e o modelo pode gerar imagens em vários estilos, incluindo realista, desenho animado e artístico. Desenvolvido pela equipe do HiDream.ai e hospedado no GitHub, o projeto escolhe...
Imagem 4
O recém-lançado modelo Imagen 4 do Google DeepMind, a mais recente iteração de sua tecnologia de geração de imagens, está rapidamente se tornando um ponto focal do setor. O modelo fez avanços significativos para melhorar a riqueza, a precisão dos detalhes e a velocidade da geração de imagens, trabalhando para dar vida à imaginação do usuário de uma forma nunca antes vista...
BAGEL
O BAGEL é um modelo de base multimodal de código aberto desenvolvido pela equipe do ByteDance Seed e hospedado no GitHub. Ele integra recursos de compreensão de texto, geração de imagens e edição para dar suporte a tarefas multimodais. O modelo tem 7 bilhões de parâmetros ativos (14 bilhões de parâmetros no total) e usa a mistura de...
MiniMax Speech 02
Com a evolução contínua das tecnologias de IA, a interação de voz personalizada e altamente natural tornou-se um requisito fundamental para muitos aplicativos inteligentes. No entanto, as tecnologias de conversão de texto em fala (TTS) existentes ainda enfrentam desafios para atender a tons personalizados em grande escala, cobertura multilíngue e expressão de emoções altamente realistas. Para abordar essas linhas...
Windsurf SWE-1
SWE-1: uma nova geração de modelos de ponta para engenharia de software Recentemente, foi lançada a tão esperada família de modelos SWE-1. Projetada para otimizar todo o processo de engenharia de software, essa família de modelos vai muito além da tarefa tradicional de escrever código. Atualmente, a família SWE-1 consiste em três modelos bem posicionados:...
Lançamento do Qwen3: uma nova geração de modelos de Big Language para pensar profundamente e responder rapidamente
O campo dos modelos de linguagem de grande porte tem um novo membro. Recentemente, a família Qwen de grandes modelos de linguagem lançou sua versão mais recente, o Qwen3. De acordo com a equipe de desenvolvimento, seu principal modelo, o Qwen3-235B-A22B, demonstrou ser comparável ao DeepSeek-R1 , o1 , o3 em benchmarks de codificação, matemática e capacidade de uso geral...