
DeepSeek-OCR: uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto
DeepSeek-OCR 是由深度求索(DeepSeek-AI)公司开发并开源的一款光学字符识别(OCR)工具。 它提出了一个名为“上下文光学压缩”的新方法,从大语言模型(LLM)的角度来重新看待视觉编码器的角色。 这个工具不是简单地识别图...

OmniInsert: uma ferramenta para inserir qualquer imagem de referência em um vídeo sem mascaramento
OmniInsert 是一个由字节跳动智能创作实验室开发的研究项目。它是一个无需使用蒙版(Mask)就能将任意参考对象无缝插入到视频中的工具。传统的视频编辑流程中,如果想在视频里加入一个新对象,通常需要手动创建一个精确的“蒙版”来框出这个对...

Wan2.2-S2V-14B: modelo de geração de vídeo para sincronização da boca do personagem com base na fala
Wan2.2-S2V-14B是Wan-AI团队开发的一款大型AI模型,专门用于根据音频、文字和图像生成高质量的视频。 它采用了创新的混合专家(MoE)架构,模型总参数量达到27B,但在运行时只激活其中14B参数,有效平衡了性能和计算成本。 ...

SpatialLM: Varra a sala e a IA desenha automaticamente o modelo 3D para você!
SpatialLM是一个专门为处理三维(3D)点云数据而设计的大语言模型。它的核心功能是理解非结构化的3D几何数据,并将其转化为结构化的3D场景表示。这些结构化输出包含了建筑元素(如墙壁、门、窗)以及带方向的物体边界框及其语义类别。与许多需...

VibeVoice-1.5B: um modelo de geração de fala para diálogos de áudio longos com várias funções da Microsoft
O VibeVoice-1.5B é um modelo de conversão de texto em fala (TTS) de código aberto de última geração lançado pela Microsoft Research. Ele foi projetado especificamente para gerar áudio de diálogo expressivo, longo e com vários caracteres, como podcasts ou audiolivros. A principal inovação do VibeVoice é o uso de um sistema de 7...

Grok-2: Modelo de linguagem grande de especialista híbrido de código aberto da xAI
O Grok-2 é um modelo de macrolinguagem de segunda geração desenvolvido pela xAI de Elon Musk em 2024. Um recurso importante do modelo é sua arquitetura Mixture-of-Experts (MoE), projetada para processar informações com mais eficiência. Em termos simples, há vários "especialistas" no modelo...

Baichuan-M2: um modelo de linguagem grande para raciocínio aumentado na área de saúde
Baichuan-M2 是百川智能公司推出的一个参数量为320亿(32B)的开源大语言模型。 该模型专注于医疗领域,旨在处理真实世界的医疗推理任务。它基于Qwen2.5-32B模型进行二次开发,通过引入创新的“大型验证器系统”(Large ...

Genie 3: Geração de mundos virtuais que podem ser interagidos em tempo real
Genie 3是谷歌DeepMind发布的一款通用世界模型(world model),它代表了AI在模拟和创建虚拟环境方面的最新进展。这款模型最核心的特点是,它可以仅仅根据一段文字描述,生成一个多样化且支持实时交互的动态世界。用户可以在这个...

Seed-OSS: Modelo de linguagem grande de código aberto para raciocínio de contexto longo e aplicativos versáteis
Seed-OSS 是由字节跳动(ByteDance)Seed 团队开发的一系列开源大语言模型,专注于长上下文处理、推理能力和代理任务优化。模型包含 360 亿参数,仅用 12 万亿 token 训练,性能在多个主流基准测试中表现出色,支持 ...

HRM: modelos de raciocínio hierárquico para raciocínio complexo
HRM (Hierarchical Reasoning Model) 是一个仅有2700万参数的层级式推理模型,旨在解决人工智能领域中复杂的推理任务。该模型的设计灵感来源于人脑的层级式、多时间尺度的信息处理方式。 它通过一个高层模块(负责缓...

DeepSeek-V3.1-Base: um modelo de linguagem em grande escala para o processamento eficiente de tarefas complexas
O DeepSeek-V3.1-Base é um modelo de linguagem grande de código aberto desenvolvido pela DeepSeek e lançado na plataforma Hugging Face, projetado para tarefas de processamento de linguagem natural. Ele tem 685 bilhões de parâmetros, é compatível com vários tipos de dados (BF16, F8_E4M3, F32) e pode...

Qwen-Image-Edit: modelo de IA para edição de imagens com base em comandos textuais
Qwen-Image-Edit 是由阿里巴巴通义千问团队开发的一款图像编辑AI模型。 它基于拥有200亿参数的Qwen-Image模型进行训练,核心功能是让用户通过简单的中文或英文文字指令,对图片进行修改。 这款模型同时利用了视觉语义理解和...

GLM-4.5V: um modelo de diálogo multimodal capaz de compreender imagens e vídeos e gerar código
O GLM-4.5V é uma nova geração do Visual Language Megamodel (VLM) desenvolvido pela Zhipu AI (Z.AI). O modelo é construído com base no modelo de texto principal GLM-4.5-Air usando a arquitetura MOE, com 106 bilhões de referências totais, incluindo 12 bilhões de parâmetros de ativação. O GLM-4.5V não só processa imagens e textos, mas também entende a linguagem visual...

Qwen-Image: uma ferramenta de IA para gerar imagens de alta fidelidade com renderização precisa de texto
Qwen-Image 是一个由 Qwen 团队开发的 20B 参数多模态扩散模型(MMDiT),专注于高保真图像生成和精准文本渲染。它在复杂文本处理(尤其是中文和英文)以及图像编辑方面表现卓越。模型支持多种艺术风格,如写实、动漫和高清海报,...

A MiniMax lança o Speech 2.5: a tecnologia de síntese de fala é inovadora em multilinguismo e reprodução de tons
8月7日,MiniMax 公司发布了其新一代语音生成模型 Speech 2.5。据官方资料显示,该模型在前代 Speech 02 的基础上,于多语种表现力、音色复刻精度以及支持的语种数量上实现了提升。 在人工智能生成内容(AIGC)领域,文...

KittenTTS: um modelo leve de conversão de texto em fala
O KittenTTS é um modelo de conversão de texto em fala (TTS) de código aberto focado em leveza e eficiência. Ele ocupa menos de 25 MB de armazenamento, tem cerca de 15 milhões de parâmetros e é executado em dispositivos de baixo custo sem suporte a GPU.

GPT-OSS: Grande modelo de código aberto da OpenAI para raciocínio eficiente
O GPT-OSS é uma família de modelos de linguagem de código aberto da OpenAI, incluindo o gpt-oss-120b e o gpt-oss-20b, com 117 bilhões e 210 bilhões de parâmetros, respectivamente, licenciados sob a licença Apache 2.0, que permite aos desenvolvedores baixá-los, modificá-los e implantá-los gratuitamente. gpt-oss...

SongGeneration: um modelo de IA de código aberto para gerar músicas e letras de alta qualidade
SongGeneration 是由腾讯 AI Lab 开发并开源的音乐生成模型,专注于生成高品质的歌曲,包括歌词、伴奏和人声。它基于 LeVo 框架,结合语言模型 LeLM 和音乐编解码器,支持中英文歌曲生成。模型在百万歌曲数据集上训练,能...

Etapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodal
Step3 是由 StepFun 开发的一个开源多模态大模型项目,托管在 GitHub 上,旨在提供高效、经济的文本、图像和语音内容生成能力。项目以 321 亿参数(38 亿活跃参数)的混合专家模型(MoE)为核心,优化了推理速度和性能,适...
voltar ao topo