GLM-4.5V:能够理解图像和视频并生成代码的多模态对话模型
GLM-4.5V是由智谱AI(Z.AI)开发的新一代视觉语言大模型(VLM)。该模型基于采用MOE架构的旗舰文本模型GLM-4.5-Air构建,总参数量达到1060亿,其中激活参数为120亿。GLM-4.5V不仅能处理图像和文本,还能理解视...
ARC-Hunyuan-Video-7B:理解短视频内容的智能模型
ARC-Hunyuan-Video-7B 是一个由腾讯 ARC 实验室开发的开源多模态模型,专注于理解用户生成的短视频内容。它通过整合视频的视觉、音频和文本信息,提供深度的结构化分析。该模型能处理复杂视觉元素、高密度音频信...
GLM-4.1V-Thinking:开源视觉推理模型,支持多模态复杂任务
GLM-4.1V-Thinking 是一个由清华大学 KEG 实验室(THUDM)开发的开源视觉语言模型,专注于多模态推理能力。基于 GLM-4-9B-0414 基础模型,GLM-4.1V-Thinking 通过强化学习和“思维链”推理机制...
VideoMind
VideoMind 是一个开源的多模态AI工具,专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔(Ye Liu)和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频的方式,把任务拆成规划、定位、验...
DeepSeek-VL2
DeepSeek-VL2 是一系列高级的 Mixture-of-Experts (MoE) 视觉语言模型,显著提升了其前身 DeepSeek-VL 的性能。该模型在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等任务中表现出色。De...
Reka:提供多模态AI模型,支持多语言处理,优化数据分析,增强视觉理解
Reka 是一家致力于提供新一代多模态AI解决方案的公司。其产品包括Reka Core、Flash、Edge和Spark等多种型号,支持文本、代码、图像、视频和音频数据的处理。Reka 的模型具有强大的推理能力和多语言支持,适用于各...
回顶部