视觉识别模型

 提交网站

GLM-4.5V：能够理解图像和视频并生成代码的多模态对话模型
GLM-4.5V是由智谱AI（Z.AI）开发的新一代视觉语言大模型（VLM）。该模型基于采用MOE架构的旗舰文本模型GLM-4.5-Air构建，总参数量达到1060亿，其中激活参数为120亿。GLM-4.5V不仅能处理图像和文本，还能理解视...
427直达0已赞
0已收藏
ARC-Hunyuan-Video-7B：理解短视频内容的智能模型
ARC-Hunyuan-Video-7B 是一个由腾讯 ARC 实验室开发的开源多模态模型，专注于理解用户生成的短视频内容。它通过整合视频的视觉、音频和文本信息，提供深度的结构化分析。该模型能处理复杂视觉元素、高密度音频信...
279直达0已赞
0已收藏
GLM-4.1V-Thinking：开源视觉推理模型，支持多模态复杂任务
GLM-4.1V-Thinking 是一个由清华大学 KEG 实验室（THUDM）开发的开源视觉语言模型，专注于多模态推理能力。基于 GLM-4-9B-0414 基础模型，GLM-4.1V-Thinking 通过强化学习和“思维链”推理机制...
752直达0已赞
0已收藏
VideoMind
VideoMind 是一个开源的多模态AI工具，专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔（Ye Liu）和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频的方式，把任务拆成规划、定位、验...
1.6 K直达0已赞
0已收藏
DeepSeek-VL2
DeepSeek-VL2 是一系列高级的 Mixture-of-Experts (MoE) 视觉语言模型，显著提升了其前身 DeepSeek-VL 的性能。该模型在视觉问答、光学字符识别、文档/表格/图表理解和视觉定位等任务中表现出色。De...
1.9 K直达0已赞
0已收藏
Reka：提供多模态AI模型，支持多语言处理，优化数据分析，增强视觉理解
Reka 是一家致力于提供新一代多模态AI解决方案的公司。其产品包括Reka Core、Flash、Edge和Spark等多种型号，支持文本、代码、图像、视频和音频数据的处理。Reka 的模型具有强大的推理能力和多语言支持，适用于各...
2.2 K直达0已赞
0已收藏

视觉识别模型

快速查询站内AI工具