
O Annot8 é uma ferramenta de anotação de imagens desenvolvida para o macOS, com o objetivo de ajudar os usuários a preparar rapidamente conjuntos de dados de alta qualidade para modelos de aprendizado de máquina. Ele suporta o upload em lote de imagens e simplifica o processo de anotação por meio de uma interface intuitiva e operações de teclas de atalho, adequadas para iniciantes em aprendizado de máquina e desenvolvedores profissionais. Os usuários podem adicionar rótulos personalizados às imagens e exportá-las para o C...

O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...

Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, permitindo que os usuários combinem diferentes modelos de detecção de objetos (por exemplo, YOLO, RT-DETR) para uma análise de vídeo flexível. Os usuários podem facilmente...

O Describe Anything é um projeto de código aberto desenvolvido pela NVIDIA e por várias universidades, com o Describe Anything Model (DAM) em seu núcleo. Essa ferramenta gera descrições detalhadas com base em áreas (como pontos, caixas, rabiscos ou máscaras) que o usuário marca em uma imagem ou vídeo. Ela não ...

O Find My Kids é um projeto de código aberto hospedado no GitHub e criado pelo desenvolvedor Tomer Klein. Ele combina a tecnologia de reconhecimento facial DeepFace com a API verde do WhatsApp e foi projetado para ajudar os pais a monitorar os grupos de WhatsApp de seus filhos por meio de...

O YOLOE é um projeto de código-fonte aberto desenvolvido pelo Grupo de Inteligência Multimídia (THU-MIG) da Escola de Software da Universidade de Tsinghua, com o nome completo "You Only Look Once Eye". Ele é baseado na estrutura PyTorch, pertence à série de extensões YOLO e pode detectar e segmentar qualquer objeto em tempo real. O projeto está hospedado no GitHu...

O SegAnyMo é um projeto de código aberto desenvolvido por uma equipe de pesquisadores da UC Berkeley e da Universidade de Pequim, incluindo membros como Nan Huang. Essa ferramenta se concentra no processamento de vídeo e pode identificar e segmentar automaticamente objetos móveis arbitrários em um vídeo, como pessoas, animais ou veículos. Ela combina TAPNet, DINOv2 e S...

O RF-DETR é um modelo de detecção de objetos de código aberto desenvolvido pela equipe do Roboflow. Ele é baseado na arquitetura Transformer e seu principal recurso é a eficiência em tempo real. Pela primeira vez, o modelo atinge mais de 60 APs de detecção em tempo real no conjunto de dados Microsoft COCO e também apresenta bom desempenho no benchmark RF100-VL...

O HumanOmni é um grande modelo multimodal de código aberto desenvolvido pela equipe HumanMLLM e hospedado no GitHub. Ele se concentra na análise de vídeos humanos e pode processar imagens e sons para ajudar a entender emoções, movimentos e conteúdo de diálogos. O projeto usou 2,4 milhões de videoclipes centrados em humanos e 14 milhões de...

O Vision Agent é um projeto de código aberto desenvolvido pela LandingAI (equipe de Enda Wu) e hospedado no GitHub para ajudar os usuários a gerar rapidamente códigos para resolver tarefas de visão computacional. Ele usa uma estrutura de agente avançada e um modelo multimodal para gerar um código de IA de visão eficiente com prompts simples para...

O Make Sense é uma ferramenta gratuita de anotação de imagens on-line criada para ajudar os usuários a preparar rapidamente conjuntos de dados para projetos de visão computacional. Ela não requer instalação complicada, basta abrir um acesso ao navegador para usá-la, é compatível com vários sistemas operacionais e é ideal para pequenos projetos de aprendizagem profunda. Os usuários podem usá-la para adicionar rótulos às imagens e exportar os resultados para vários formatos, como...

O YOLOv12 é um projeto de código aberto desenvolvido pelo usuário do GitHub sunsmarterjie, com foco na tecnologia de detecção de alvos em tempo real. O projeto se baseia na série de estruturas YOLO (You Only Look Once), na introdução do mecanismo de atenção para otimizar o desempenho das redes neurais convolucionais tradicionais (CNN), não apenas ...

O VLM-R1 é um projeto de modelagem de linguagem visual de código aberto desenvolvido pelo Om AI Lab e hospedado no GitHub. O projeto se baseia na abordagem R1 do DeepSeek, combinada com o modelo Qwen2.5-VL, e aprimora significativamente o modelo por meio de técnicas de aprendizado por reforço (R1) e ajuste fino supervisionado (SFT) em...

O HealthGPT é um modelo de linguagem visual médica de última geração projetado para permitir a compreensão visual médica unificada e os recursos de geração por meio da adaptação de conhecimento heterogêneo. O objetivo do projeto é integrar os recursos de geração e compreensão da visão médica em uma estrutura autorregressiva unificada que melhora significativamente a eficiência e a precisão do processamento de imagens médicas.

O MedRAX é uma inteligência de IA de última geração projetada especificamente para análise de radiografia de tórax (CXR). Ele integra ferramentas de análise de CXR de última geração e um modelo multimodal de linguagem grande para processar dinamicamente consultas médicas complexas sem treinamento adicional. O MedRAX fornece uma estrutura unificada por meio de seu design modular e base técnica sólida, aprimorando significativamente...

A Agentic Object Detection é uma ferramenta avançada de detecção de alvos da Landing AI. A ferramenta simplifica muito o processo de detecção de alvos tradicional, usando prompts de texto para detecção sem a necessidade de anotação de dados e treinamento de modelos. Os usuários simplesmente carregam uma imagem e inserem os prompts de detecção, e o agente de IA...

O CogVLM2 é um modelo multimodal de código aberto desenvolvido pelo Grupo de Pesquisa em Mineração de Dados da Universidade de Tsinghua (THUDM), baseado na arquitetura Llama3-8B e projetado para oferecer desempenho comparável ou até melhor que o GPT-4V. O modelo oferece suporte à compreensão de imagens, ao diálogo em várias rodadas e à compreensão de vídeos, e é capaz de processar conteúdo de até 8K de comprimento, além de suportar até 1...

A Deeptrain é uma plataforma focada no processamento de vídeo de IA, capaz de integrar efetivamente o conteúdo de vídeo a vários aplicativos de IA por meio de sua tecnologia avançada que suporta mais de 200 modelos de linguagem. Os usuários podem treinar modelos diretamente fornecendo URLs de vídeo sem a necessidade de baixar vídeos. A Deeptrain oferece uma gama de transcrição de vídeo para compressão...

O Gaze-LLE é uma ferramenta de previsão de alvo do olhar baseada em um codificador de aprendizado em larga escala. Desenvolvida por Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman e James M. Rehg, ela tem como objetivo usar o codificador visual pré-treinado...
voltar ao topo

