
O Annot8 é uma ferramenta de anotação de imagens desenvolvida para o macOS, com o objetivo de ajudar os usuários a preparar rapidamente conjuntos de dados de alta qualidade para modelos de aprendizado de máquina. Ele suporta o upload em lote de imagens e simplifica o processo de anotação por meio de uma interface intuitiva e operações de teclas de atalho, adequadas para iniciantes em aprendizado de máquina e desenvolvedores profissionais. Os usuários podem adicionar rótulos personalizados às imagens e exportá-las para o C...

O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...

Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, permitindo que os usuários combinem diferentes modelos de detecção de objetos (por exemplo, YOLO, RT-DETR) para uma análise de vídeo flexível. Os usuários podem facilmente...

O Describe Anything é um projeto de código aberto desenvolvido pela NVIDIA e por várias universidades, com o Describe Anything Model (DAM) em seu núcleo. Essa ferramenta gera descrições detalhadas com base em áreas (como pontos, caixas, rabiscos ou máscaras) que o usuário marca em uma imagem ou vídeo. Ela não ...

O Find My Kids é um projeto de código aberto hospedado no GitHub e criado pelo desenvolvedor Tomer Klein. Ele combina a tecnologia de reconhecimento facial DeepFace com a API verde do WhatsApp e foi projetado para ajudar os pais a monitorar os grupos de WhatsApp de seus filhos por meio de...

O YOLOE é um projeto de código-fonte aberto desenvolvido pelo Grupo de Inteligência Multimídia (THU-MIG) da Escola de Software da Universidade de Tsinghua, com o nome completo "You Only Look Once Eye". Ele é baseado na estrutura PyTorch, pertence à série de extensões YOLO e pode detectar e segmentar qualquer objeto em tempo real. O projeto está hospedado no GitHu...

O SegAnyMo é um projeto de código aberto desenvolvido por uma equipe de pesquisadores da UC Berkeley e da Universidade de Pequim, incluindo membros como Nan Huang. Essa ferramenta se concentra no processamento de vídeo e pode identificar e segmentar automaticamente objetos móveis arbitrários em um vídeo, como pessoas, animais ou veículos. Ela combina TAPNet, DINOv2 e S...

O RF-DETR é um modelo de detecção de objetos de código aberto desenvolvido pela equipe do Roboflow. Ele é baseado na arquitetura Transformer e seu principal recurso é a eficiência em tempo real. Pela primeira vez, o modelo atinge mais de 60 APs de detecção em tempo real no conjunto de dados Microsoft COCO e também apresenta bom desempenho no benchmark RF100-VL...

HumanOmni 是由 HumanMLLM 团队开发的一个开源多模态大模型,托管在 GitHub 上。它专注于分析人类视频,能同时处理画面和声音,帮助理解情感、动作和对话内容。项目用了 240 万个以人为中心的视频片段和 1400 万条指...

Vision Agent 是由 LandingAI(吴恩达团队) 开发的一个开源项目,托管在 GitHub 上,旨在帮助用户快速生成解决计算机视觉任务的代码。它利用先进的代理框架和多模态模型,通过简单的提示即可生成高效的视觉AI代码,适用于...

Make Sense 是一个免费的在线图像标注工具,旨在帮助用户快速为计算机视觉项目准备数据集。它无需复杂安装,只需打开浏览器访问即可使用,支持多种操作系统,非常适合小型深度学习项目。用户可以通过它为图片添加标签,并将结果导出为多种格式,如...

O YOLOv12 é um projeto de código aberto desenvolvido pelo usuário do GitHub sunsmarterjie, com foco na tecnologia de detecção de alvos em tempo real. O projeto se baseia na série de estruturas YOLO (You Only Look Once), na introdução do mecanismo de atenção para otimizar o desempenho das redes neurais convolucionais tradicionais (CNN), não apenas ...

O VLM-R1 é um projeto de modelagem de linguagem visual de código aberto desenvolvido pelo Om AI Lab e hospedado no GitHub. O projeto se baseia na abordagem R1 do DeepSeek, combinada com o modelo Qwen2.5-VL, e aprimora significativamente o modelo por meio de técnicas de aprendizado por reforço (R1) e ajuste fino supervisionado (SFT) em...

HealthGPT 是一个先进的医疗大视觉语言模型,旨在通过异构知识适应实现统一的医学视觉理解和生成功能。该项目的目标是将医学视觉理解和生成能力集成到一个统一的自回归框架中,显著提升了医疗图像处理的效率和准确性。HealthGPT 支持多种...

O MedRAX é uma inteligência de IA de última geração projetada especificamente para análise de radiografia de tórax (CXR). Ele integra ferramentas de análise de CXR de última geração e um modelo multimodal de linguagem grande para processar dinamicamente consultas médicas complexas sem treinamento adicional. O MedRAX fornece uma estrutura unificada por meio de seu design modular e base técnica sólida, aprimorando significativamente...

Agentic Object Detection 是由 Landing AI 推出的先进目标检测工具。该工具通过文本提示进行检测,无需进行数据标注和模型训练,极大地简化了传统目标检测的流程。用户只需上传图像并输入检测提示,AI 代理即可对图...

CogVLM2 是由清华大学数据挖掘研究组(THUDM)开发的开源多模态模型,基于 Llama3-8B 架构,旨在提供与 GPT-4V 相当甚至更优的性能。该模型支持图像理解、多轮对话以及视频理解,能够处理长达 8K 的内容,并支持高达 1...

A Deeptrain é uma plataforma focada no processamento de vídeo de IA, capaz de integrar efetivamente o conteúdo de vídeo a vários aplicativos de IA por meio de sua tecnologia avançada que suporta mais de 200 modelos de linguagem. Os usuários podem treinar modelos diretamente fornecendo URLs de vídeo sem a necessidade de baixar vídeos. A Deeptrain oferece uma gama de transcrição de vídeo para compressão...

O Gaze-LLE é uma ferramenta de previsão de alvo do olhar baseada em um codificador de aprendizado em larga escala. Desenvolvida por Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman e James M. Rehg, ela tem como objetivo usar o codificador visual pré-treinado...
voltar ao topo

