Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

Detecção visual de alvos

 Enviar site

Annot8: Anotação rápida de imagens para treinamento de modelos de IA
O Annot8 é uma ferramenta de anotação de imagens desenvolvida para o macOS, com o objetivo de ajudar os usuários a preparar rapidamente conjuntos de dados de alta qualidade para modelos de aprendizado de máquina. Ele suporta o upload em lote de imagens e simplifica o processo de anotação por meio de uma interface intuitiva e operações de teclas de atalho, adequadas para iniciantes em aprendizado de máquina e desenvolvedores profissionais. Os usuários podem criar uma nova imagem para o ...
07-29 7170Recomendado
GLM-4.1V-Thinking: um modelo de inferência visual de código aberto para dar suporte a tarefas multimodais complexas
O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...
07-02 2.0 K0Recomendado
Trackers: biblioteca de ferramentas de código aberto para rastreamento de objetos de vídeo
Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, permitindo que os usuários combinem diferentes modelos de detecção de objetos (por exemplo, YOLO, RT-DETR) para uma análise de vídeo flexível. Os usuários podem facilmente...
05-05 1.9 K0Recomendado
Describe Anything: uma ferramenta de código aberto para gerar descrições detalhadas de imagens e áreas de vídeo
O Describe Anything é um projeto de código aberto desenvolvido pela NVIDIA e por várias universidades, com o Describe Anything Model (DAM) em seu núcleo. Essa ferramenta gera descrições detalhadas com base em áreas (como pontos, caixas, rabiscos ou máscaras) que o usuário marca em uma imagem ou vídeo. Ela não ...
05-05 1.6 K0Recomendado
Find My Kids: ferramenta de monitoramento de segurança infantil por meio de reconhecimento facial e notificações do WhatsApp
O Find My Kids é um projeto de código aberto hospedado no GitHub e criado pelo desenvolvedor Tomer Klein. Ele combina a tecnologia de reconhecimento facial DeepFace com a API verde do WhatsApp e foi projetado para ajudar os pais a monitorar os grupos de WhatsApp de seus filhos por meio de...
04-22 1.5 K0Recomendado
YOLOE: uma ferramenta de código aberto para detecção de vídeo em tempo real e segmentação de objetos
O YOLOE é um projeto de código-fonte aberto desenvolvido pelo Grupo de Inteligência Multimídia (THU-MIG) da Escola de Software da Universidade de Tsinghua, com o nome completo "You Only Look Once Eye". Ele é baseado na estrutura PyTorch, pertence à série de extensões YOLO e pode detectar e segmentar qualquer objeto em tempo real. O projeto está hospedado no GitHu...
04-02 2.5 K0Recomendado
SegAnyMo: uma ferramenta de código aberto para segmentar automaticamente objetos móveis arbitrários em vídeos
O SegAnyMo é um projeto de código aberto desenvolvido por uma equipe de pesquisadores da UC Berkeley e da Universidade de Pequim, incluindo membros como Nan Huang. Essa ferramenta se concentra no processamento de vídeo e pode identificar e segmentar automaticamente objetos móveis arbitrários em um vídeo, como pessoas, animais ou veículos. Ela combina TAPNet, DINO...
04-02 1.9 K0Recomendado
RF-DETR: um modelo de código aberto para detecção de objetos visuais em tempo real
O RF-DETR é um modelo de detecção de objetos de código aberto desenvolvido pela equipe do Roboflow. Ele é baseado na arquitetura Transformer e seu principal recurso é a eficiência em tempo real. Pela primeira vez, o modelo atinge mais de 60 APs de detecção em tempo real no conjunto de dados Microsoft COCO e também apresenta bom desempenho no benchmark RF100-VL...
03-25 4.0 K0Recomendado
HumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanos
O HumanOmni é um grande modelo multimodal de código aberto desenvolvido pela equipe HumanMLLM e hospedado no GitHub. Ele se concentra na análise de vídeos humanos e pode processar imagens e sons para ajudar a entender a emoção, o movimento e o conteúdo do diálogo. O projeto usou 2,4 milhões de videoclipes centrados em humanos e 14 milhões de .....
03-18 1.9 K0Recomendado
Vision Agent: uma inteligência visual para resolver várias tarefas de detecção visual de alvos
O Vision Agent é um projeto de código aberto desenvolvido pela LandingAI (equipe de Enda Wu) e hospedado no GitHub para ajudar os usuários a gerar códigos rapidamente para resolver tarefas de visão computacional. Ele utiliza uma estrutura de agente avançada e um modelo multimodal para gerar agentes de IA de visão eficientes com instruções simples...
02-28 1.9 K0Recomendado
MakeSense: uma ferramenta de anotação de imagens de uso gratuito para aumentar a eficiência do projeto de visão computacional
O Make Sense é uma ferramenta gratuita de anotação de imagens on-line criada para ajudar os usuários a preparar rapidamente conjuntos de dados para projetos de visão computacional. Ela não requer instalação complicada, basta abrir um acesso ao navegador para usá-la, é compatível com vários sistemas operacionais e é perfeita para pequenos projetos de aprendizagem profunda. Os usuários podem usá-la para adicionar imagens a...
02-24 2.9 K0Recomendado
YOLOv12: uma ferramenta de código aberto para detecção de alvos em imagens e vídeos em tempo real
O YOLOv12 é um projeto de código aberto desenvolvido pelo usuário do GitHub sunsmarterjie, com foco na tecnologia de detecção de alvos em tempo real. O projeto se baseia na série de estruturas YOLO (You Only Look Once), na introdução do mecanismo de atenção para otimizar o desempenho das redes neurais convolucionais tradicionais (CNN), não apenas ...
02-23 3.0 K0Recomendado
VLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem natural
O VLM-R1 é um projeto de modelagem de linguagem visual de código aberto desenvolvido pelo Om AI Lab e hospedado no GitHub. O projeto se baseia na abordagem R1 do DeepSeek, combinada com o modelo Qwen2.5-VL, e aprimora significativamente o modelo por meio de técnicas de aprendizado por reforço (R1) e ajuste fino supervisionado (SFT) em...
02-23 2.2 K0Recomendado
HealthGPT: um grande modelo médico para apoiar a análise de imagens médicas e as perguntas e respostas de diagnóstico
O HealthGPT é um modelo de linguagem visual médica de última geração que visa obter recursos unificados de geração e compreensão visual médica por meio da adaptação de conhecimento heterogêneo. O objetivo do projeto é integrar os recursos de geração e compreensão da visão médica em uma estrutura autorregressiva unificada, melhorando significativamente a eficiência e a precisão do processamento de imagens médicas...
02-20 2.0 K0Recomendado
MedRAX: um corpo inteligente para análise de radiografias de tórax usando macromodelos multimodais
O MedRAX é uma inteligência de IA de última geração projetada especificamente para a análise de radiografia de tórax (CXR). Ele integra ferramentas de análise de CXR de última geração e modelos multimodais de linguagem ampla para processar dinamicamente consultas médicas complexas sem treinamento adicional.
02-10 2.1 K0Recomendado
Agentic Object Detection: uma ferramenta para detecção de objetos visuais sem anotação e treinamento
O Agentic Object Detection é uma ferramenta avançada de detecção de alvos da Landing AI. A ferramenta simplifica muito o processo tradicional de detecção de alvos usando prompts de texto para detecção sem a necessidade de rotulagem de dados e treinamento de modelos. Os usuários simplesmente carregam uma imagem e inserem os prompts de detecção, e o agente de IA pode .....
02-08 2.2 K0Recomendado
CogVLM2: modelo multimodal de código aberto para apoiar a compreensão de vídeos e várias rodadas de diálogo
O CogVLM2 é um modelo multimodal de código aberto desenvolvido pelo Grupo de Pesquisa em Mineração de Dados da Universidade de Tsinghua (THUDM), baseado na arquitetura Llama3-8B e projetado para oferecer desempenho comparável ou até melhor que o GPT-4V. O modelo oferece suporte à compreensão de imagens, ao diálogo em várias rodadas e à compreensão de vídeos, e é capaz de lidar com conteúdo de até 8K de comprimento...
02-08 2.0 K0Recomendado
Deeptrain: conversão de conteúdo de vídeo em informações recuperáveis de modelos grandes
A Deeptrain é uma plataforma focada no processamento de vídeo de IA, que pode integrar efetivamente o conteúdo de vídeo em vários aplicativos de IA por meio de sua tecnologia avançada que suporta mais de 200 modelos de linguagem. Os usuários podem treinar modelos diretamente fornecendo URLs de vídeo sem precisar fazer download dos vídeos.
01-29 2.0 K0Recomendado
Gaze-LLE: ferramenta de previsão de alvos para o olhar de pessoas em vídeos
O Gaze-LLE é uma ferramenta de previsão de alvo do olhar baseada em um codificador de aprendizado em larga escala. Desenvolvida por Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman e James M. Rehg, ela tem como objetivo usar o codificador visual pré-treinado...
01-24 2.4 K0Recomendado