Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

Detecção visual de alvos

 Enviar site

Annot8: Anotação rápida de imagens para treinamento de modelos de IA
O Annot8 é uma ferramenta de anotação de imagens desenvolvida para o macOS, com o objetivo de ajudar os usuários a preparar rapidamente conjuntos de dados de alta qualidade para modelos de aprendizado de máquina. Ele suporta o upload em lote de imagens e simplifica o processo de anotação por meio de uma interface intuitiva e operações de teclas de atalho, adequadas para iniciantes em aprendizado de máquina e desenvolvedores profissionais. Os usuários podem adicionar rótulos personalizados às imagens e exportá-las para o C...
07-29 2.1 K0Recomendado
GLM-4.1V-Thinking: um modelo de inferência visual de código aberto para dar suporte a tarefas multimodais complexas
O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...
07-02 3.0 K0Recomendado
Trackers: biblioteca de ferramentas de código aberto para rastreamento de objetos de vídeo
Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, permitindo que os usuários combinem diferentes modelos de detecção de objetos (por exemplo, YOLO, RT-DETR) para uma análise de vídeo flexível. Os usuários podem facilmente...
05-05 3.7 K0Recomendado
Describe Anything: uma ferramenta de código aberto para gerar descrições detalhadas de imagens e áreas de vídeo
O Describe Anything é um projeto de código aberto desenvolvido pela NVIDIA e por várias universidades, com o Describe Anything Model (DAM) em seu núcleo. Essa ferramenta gera descrições detalhadas com base em áreas (como pontos, caixas, rabiscos ou máscaras) que o usuário marca em uma imagem ou vídeo. Ela não ...
05-05 3.0 K0Recomendado
Find My Kids: ferramenta de monitoramento de segurança infantil por meio de reconhecimento facial e notificações do WhatsApp
O Find My Kids é um projeto de código aberto hospedado no GitHub e criado pelo desenvolvedor Tomer Klein. Ele combina a tecnologia de reconhecimento facial DeepFace com a API verde do WhatsApp e foi projetado para ajudar os pais a monitorar os grupos de WhatsApp de seus filhos por meio de...
04-22 2.5 K0Recomendado
YOLOE: uma ferramenta de código aberto para detecção de vídeo em tempo real e segmentação de objetos
O YOLOE é um projeto de código-fonte aberto desenvolvido pelo Grupo de Inteligência Multimídia (THU-MIG) da Escola de Software da Universidade de Tsinghua, com o nome completo "You Only Look Once Eye". Ele é baseado na estrutura PyTorch, pertence à série de extensões YOLO e pode detectar e segmentar qualquer objeto em tempo real. O projeto está hospedado no GitHu...
04-02 4.6 K0Recomendado
SegAnyMo: uma ferramenta de código aberto para segmentar automaticamente objetos móveis arbitrários em vídeos
O SegAnyMo é um projeto de código aberto desenvolvido por uma equipe de pesquisadores da UC Berkeley e da Universidade de Pequim, incluindo membros como Nan Huang. Essa ferramenta se concentra no processamento de vídeo e pode identificar e segmentar automaticamente objetos móveis arbitrários em um vídeo, como pessoas, animais ou veículos. Ela combina TAPNet, DINOv2 e S...
04-02 3.1 K0Recomendado
RF-DETR: um modelo de código aberto para detecção de objetos visuais em tempo real
O RF-DETR é um modelo de detecção de objetos de código aberto desenvolvido pela equipe do Roboflow. Ele é baseado na arquitetura Transformer e seu principal recurso é a eficiência em tempo real. Pela primeira vez, o modelo atinge mais de 60 APs de detecção em tempo real no conjunto de dados Microsoft COCO e também apresenta bom desempenho no benchmark RF100-VL...
03-25 6.4 K0Recomendado
HumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanos
O HumanOmni é um grande modelo multimodal de código aberto desenvolvido pela equipe HumanMLLM e hospedado no GitHub. Ele se concentra na análise de vídeos humanos e pode processar imagens e sons para ajudar a entender emoções, movimentos e conteúdo de diálogos. O projeto usou 2,4 milhões de videoclipes centrados em humanos e 14 milhões de...
03-18 3.4 K0Recomendado
Vision Agent: uma inteligência visual para resolver várias tarefas de detecção visual de alvos
O Vision Agent é um projeto de código aberto desenvolvido pela LandingAI (equipe de Enda Wu) e hospedado no GitHub para ajudar os usuários a gerar rapidamente códigos para resolver tarefas de visão computacional. Ele usa uma estrutura de agente avançada e um modelo multimodal para gerar um código de IA de visão eficiente com prompts simples para...
02-28 3.7 K0Recomendado
MakeSense: uma ferramenta de anotação de imagens de uso gratuito para aumentar a eficiência do projeto de visão computacional
O Make Sense é uma ferramenta gratuita de anotação de imagens on-line criada para ajudar os usuários a preparar rapidamente conjuntos de dados para projetos de visão computacional. Ela não requer instalação complicada, basta abrir um acesso ao navegador para usá-la, é compatível com vários sistemas operacionais e é ideal para pequenos projetos de aprendizagem profunda. Os usuários podem usá-la para adicionar rótulos às imagens e exportar os resultados para vários formatos, como...
02-24 5.3 K0Recomendado
YOLOv12: uma ferramenta de código aberto para detecção de alvos em imagens e vídeos em tempo real
O YOLOv12 é um projeto de código aberto desenvolvido pelo usuário do GitHub sunsmarterjie, com foco na tecnologia de detecção de alvos em tempo real. O projeto se baseia na série de estruturas YOLO (You Only Look Once), na introdução do mecanismo de atenção para otimizar o desempenho das redes neurais convolucionais tradicionais (CNN), não apenas ...
02-23 4.9 K0Recomendado
VLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem natural
O VLM-R1 é um projeto de modelagem de linguagem visual de código aberto desenvolvido pelo Om AI Lab e hospedado no GitHub. O projeto se baseia na abordagem R1 do DeepSeek, combinada com o modelo Qwen2.5-VL, e aprimora significativamente o modelo por meio de técnicas de aprendizado por reforço (R1) e ajuste fino supervisionado (SFT) em...
02-23 3.6 K0Recomendado
HealthGPT: um grande modelo médico para apoiar a análise de imagens médicas e as perguntas e respostas de diagnóstico
O HealthGPT é um modelo de linguagem visual médica de última geração projetado para permitir a compreensão visual médica unificada e os recursos de geração por meio da adaptação de conhecimento heterogêneo. O objetivo do projeto é integrar os recursos de geração e compreensão da visão médica em uma estrutura autorregressiva unificada que melhora significativamente a eficiência e a precisão do processamento de imagens médicas.
02-20 3.3 K0Recomendado
MedRAX: um corpo inteligente para análise de radiografias de tórax usando macromodelos multimodais
O MedRAX é uma inteligência de IA de última geração projetada especificamente para análise de radiografia de tórax (CXR). Ele integra ferramentas de análise de CXR de última geração e um modelo multimodal de linguagem grande para processar dinamicamente consultas médicas complexas sem treinamento adicional. O MedRAX fornece uma estrutura unificada por meio de seu design modular e base técnica sólida, aprimorando significativamente...
02-10 3.0 K0Recomendado
Agentic Object Detection: uma ferramenta para detecção de objetos visuais sem anotação e treinamento
A Agentic Object Detection é uma ferramenta avançada de detecção de alvos da Landing AI. A ferramenta simplifica muito o processo de detecção de alvos tradicional, usando prompts de texto para detecção sem a necessidade de anotação de dados e treinamento de modelos. Os usuários simplesmente carregam uma imagem e inserem os prompts de detecção, e o agente de IA...
02-08 3.4 K0Recomendado
CogVLM2: modelo multimodal de código aberto para apoiar a compreensão de vídeos e várias rodadas de diálogo
O CogVLM2 é um modelo multimodal de código aberto desenvolvido pelo Grupo de Pesquisa em Mineração de Dados da Universidade de Tsinghua (THUDM), baseado na arquitetura Llama3-8B e projetado para oferecer desempenho comparável ou até melhor que o GPT-4V. O modelo oferece suporte à compreensão de imagens, ao diálogo em várias rodadas e à compreensão de vídeos, e é capaz de processar conteúdo de até 8K de comprimento, além de suportar até 1...
02-08 3.1 K0Recomendado
Deeptrain: conversão de conteúdo de vídeo em informações recuperáveis de modelos grandes
A Deeptrain é uma plataforma focada no processamento de vídeo de IA, capaz de integrar efetivamente o conteúdo de vídeo a vários aplicativos de IA por meio de sua tecnologia avançada que suporta mais de 200 modelos de linguagem. Os usuários podem treinar modelos diretamente fornecendo URLs de vídeo sem a necessidade de baixar vídeos. A Deeptrain oferece uma gama de transcrição de vídeo para compressão...
01-29 3.0 K0Recomendado
Gaze-LLE: ferramenta de previsão de alvos para o olhar de pessoas em vídeos
O Gaze-LLE é uma ferramenta de previsão de alvo do olhar baseada em um codificador de aprendizado em larga escala. Desenvolvida por Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman e James M. Rehg, ela tem como objetivo usar o codificador visual pré-treinado...
01-24 3.4 K0Recomendado