Wan2.2-S2V-14B: modelo de geração de vídeo para sincronização da boca do personagem com base na fala
O Wan2.2-S2V-14B é um modelo de IA de grande escala desenvolvido pela equipe do Wan-AI especificamente para gerar vídeos de alta qualidade com base em áudio, texto e imagens. Ele adota uma arquitetura inovadora de especialista misto (MoE), com um número total de 27 bilhões de parâmetros de modelo, mas apenas 14 bilhões deles são ativados em tempo de execução, equilibrando de forma eficaz o desempenho e...
SpatialLM: Varra a sala e a IA desenha automaticamente o modelo 3D para você!
SpatialLM是一个专门为处理三维(3D)点云数据而设计的大语言模型。它的核心功能是理解非结构化的3D几何数据,并将其转化为结构化的3D场景表示。这些结构化输出包含了建筑元素(如墙壁、门、窗)以及带方向的物体...
VibeVoice-1.5B: um modelo de geração de fala para diálogos de áudio longos com várias funções da Microsoft
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...
Grok-2: Modelo de linguagem grande de especialista híbrido de código aberto da xAI
Grok-2 是由埃隆·马斯克的 xAI 公司于 2024 年开发的第二代大语言模型。该模型的一大特点是采用了“混合专家(Mixture-of-Experts, MoE)”架构,这种设计可以更高效地处理信息。简单来说,模型内部有多个“专家”...
Baichuan-M2: um modelo de linguagem grande para raciocínio aumentado na área de saúde
Baichuan-M2 是百川智能公司推出的一个参数量为320亿(32B)的开源大语言模型。 该模型专注于医疗领域,旨在处理真实世界的医疗推理任务。它基于Qwen2.5-32B模型进行二次开发,通过引入创新的“大型验证器系统”(L...
Genie 3: Geração de mundos virtuais que podem ser interagidos em tempo real
O Genie 3 é um modelo de mundo de uso geral (modelo de mundo) lançado pelo Google DeepMind, que representa o mais recente avanço em IA para simular e criar ambientes virtuais. O principal recurso do modelo é que ele pode gerar um mundo diversificado e dinâmico que suporta interação em tempo real com base apenas em uma descrição textual...
Seed-OSS: Modelo de linguagem grande de código aberto para raciocínio de contexto longo e aplicativos versáteis
O Seed-OSS é uma série de grandes modelos de linguagem de código aberto desenvolvidos pela equipe do Seed na ByteDance, com foco no processamento de contextos longos, recursos de raciocínio e otimização de tarefas de agentes. Os modelos contêm 36 bilhões de parâmetros, são treinados com apenas 12 trilhões de tokens, apresentam bom desempenho em vários benchmarks convencionais e suportam ......
HRM: modelos de raciocínio hierárquico para raciocínio complexo
O HRM (Hierarchical Reasoning Model) é um modelo de raciocínio hierárquico com apenas 27 milhões de parâmetros projetado para resolver tarefas de raciocínio complexas no campo da inteligência artificial. O design do modelo é inspirado no processamento de informações hierárquico e em várias escalas de tempo do cérebro humano. Ele é modelado por meio de um módulo de alto nível (negativo .....
DeepSeek-V3.1-Base: um modelo de linguagem em grande escala para o processamento eficiente de tarefas complexas
O DeepSeek-V3.1-Base é um modelo de linguagem grande de código aberto desenvolvido pela DeepSeek e lançado na plataforma Hugging Face, projetado para tarefas de processamento de linguagem natural. Ele tem 685 bilhões de parâmetros, é compatível com vários tipos de dados (BF16, F8_E4M3, F32) e pode...
Qwen-Image-Edit: modelo de IA para edição de imagens com base em comandos textuais
O Qwen-Image-Edit é um modelo de IA para edição de imagens desenvolvido pela equipe da Alibaba Tongyi Qianqian. Ele é treinado com base no modelo Qwen-Image com 20 bilhões de parâmetros, e sua função principal é permitir que os usuários modifiquem imagens por meio de comandos simples de texto em chinês ou inglês. Esse modelo também utiliza...
GLM-4.5V: um modelo de diálogo multimodal capaz de compreender imagens e vídeos e gerar código
O GLM-4.5V é uma nova geração do Visual Language Megamodel (VLM) desenvolvido pela Zhipu AI (Z.AI). O modelo é construído com base no modelo de texto principal GLM-4.5-Air usando a arquitetura MOE, com 106 bilhões de referências totais, incluindo 12 bilhões de parâmetros de ativação. O GLM-4.5V não só processa imagens e textos, mas também entende a linguagem visual...
Qwen-Image: uma ferramenta de IA para gerar imagens de alta fidelidade com renderização precisa de texto
O Qwen-Image é um modelo de difusão multimodal paramétrico 20B (MMDiT) desenvolvido pela equipe do Qwen, com foco na geração de imagens de alta fidelidade e na renderização precisa de textos. Ele se destaca no processamento de textos complexos (especialmente chinês e inglês) e na edição de imagens. O modelo oferece suporte a vários estilos de arte, como realista,...
A MiniMax lança o Speech 2.5: a tecnologia de síntese de fala é inovadora em multilinguismo e reprodução de tons
Em 7 de agosto, a MiniMax anunciou seu modelo de geração de fala de última geração, o Speech 2.5, que, de acordo com informações oficiais, aprimora seu antecessor, o Speech 02, em termos de expressividade multilíngue, precisão de reprodução de timbre e número de idiomas suportados. No campo do Conteúdo Gerado por Inteligência Artificial (AIGC)...
KittenTTS: um modelo leve de conversão de texto em fala
O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.
GPT-OSS: Grande modelo de código aberto da OpenAI para raciocínio eficiente
O GPT-OSS é uma família de modelos de linguagem de código aberto da OpenAI, incluindo o gpt-oss-120b e o gpt-oss-20b, com 117 bilhões e 210 bilhões de parâmetros, respectivamente, licenciados sob a licença Apache 2.0, que permite aos desenvolvedores baixá-los, modificá-los e implantá-los gratuitamente. gpt-oss...
SongGeneration: um modelo de IA de código aberto para gerar músicas e letras de alta qualidade
O SongGeneration é um modelo de geração de música desenvolvido e de código aberto pelo Tencent AI Lab, com foco na geração de músicas de alta qualidade, incluindo letras, acompanhamento e vocais. Ele se baseia na estrutura LeVo, combinando o modelo de linguagem LeLM e codecs de música para oferecer suporte à geração de músicas em inglês e chinês. O modelo é baseado em um conjunto de dados de milhões de músicas...
Etapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodal
O Step3 é um projeto de macromodelagem multimodal de código aberto desenvolvido pela StepFun, hospedado no GitHub, que visa a fornecer recursos eficientes e econômicos de geração de conteúdo de texto, imagem e fala. O projeto está centrado em um modelo de especialista misto (MoE) de 32,1 bilhões de parâmetros (3,8 bilhões de parâmetros ativos), otimizado para velocidade de inferência...
Difusão de sementes: validação de modelos de linguagem de alta velocidade para arquiteturas de última geração
O Seed Diffusion é um modelo de linguagem experimental, lançado pela equipe do ByteDance Seed em conjunto com a Academy of Intelligent Industry Research (AIR) da Universidade de Tsinghua. Este site é uma plataforma de demonstração de tecnologia para o modelo. O modelo baseia-se na técnica de difusão discreta, e o principal objetivo é explorar a estrutura subjacente do modelo de linguagem de próxima geração que pode ser...
SkyworkUniPic: um modelo de código aberto para compreensão e geração de imagens de processamento unificado
O SkyworkUniPic é um modelo multimodal de código aberto desenvolvido pela SkyworkAI que se concentra na compreensão de imagens, imagens geradas por texto e edição de imagens. Ele integra três tarefas de linguagem visual usando uma única arquitetura de 150 milhões de parâmetros. Os usuários podem executar o 102 em GPUs de consumo, como a RTX 4090...
voltar ao topo