
Annot8 ist ein Bildannotationstool für macOS, das Benutzern helfen soll, schnell hochwertige Datensätze für Machine-Learning-Modelle vorzubereiten. Es unterstützt das Hochladen von Bildern im Stapel und vereinfacht den Annotationsprozess durch eine intuitive Benutzeroberfläche und Tastenkombinationen, die sowohl für Anfänger im maschinellen Lernen als auch für professionelle Entwickler geeignet sind. Benutzer können Bildern benutzerdefinierte Beschriftungen hinzufügen und sie in C...

GLM-4.1V-Thinking ist ein quelloffenes visuelles Sprachmodell, das vom KEG Lab der Tsinghua Universität (THUDM) entwickelt wurde und sich auf multimodale Argumentationsfähigkeiten konzentriert. Basierend auf dem Basismodell GLM-4-9B-0414 verwendet GLM-4.1V-Thinking Verstärkungslernen und "chain-of-mind"-Schlussfolgernde Mechanismen,...

Trackers ist eine Open-Source-Python-Werkzeugbibliothek, die sich auf die Verfolgung mehrerer Objekte in Videos konzentriert. Sie integriert mehrere führende Verfolgungsalgorithmen wie SORT und DeepSORT und ermöglicht es den Benutzern, verschiedene Modelle zur Objekterkennung (z. B. YOLO, RT-DETR) für eine flexible Videoanalyse zu kombinieren. Benutzer können einfach...

Describe Anything ist ein von NVIDIA und mehreren Universitäten entwickeltes Open-Source-Projekt, dessen Kernstück das Describe Anything Model (DAM) ist. Dieses Tool generiert detaillierte Beschreibungen auf der Grundlage von Bereichen (wie Punkte, Kästchen, Kritzeleien oder Masken), die der Benutzer in einem Bild oder Video markiert. Es ist nicht ...

Find My Kids ist ein Open-Source-Projekt, das auf GitHub gehostet und vom Entwickler Tomer Klein erstellt wurde. Es kombiniert die DeepFace-Gesichtserkennungstechnologie mit der WhatsApp Green API und soll Eltern dabei helfen, die WhatsApp-Gruppen ihrer Kinder durch...

YOLOE ist ein Open-Source-Projekt, das von der Multimedia Intelligence Group (THU-MIG) an der School of Software der Tsinghua-Universität entwickelt wurde und den vollständigen Namen "You Only Look Once Eye" trägt. Es basiert auf dem PyTorch-Framework, gehört zur YOLO-Serie von Erweiterungen und kann jedes Objekt in Echtzeit erkennen und segmentieren. Das Projekt wird auf GitHu gehostet...

SegAnyMo ist ein Open-Source-Projekt, das von einem Team von Forschern der UC Berkeley und der Universität Peking entwickelt wurde, zu denen auch Nan Huang gehört. Dieses Tool konzentriert sich auf die Videoverarbeitung und kann automatisch beliebige bewegte Objekte in einem Video identifizieren und segmentieren, z. B. Menschen, Tiere oder Fahrzeuge. Es kombiniert TAPNet, DINOv2 und S...

RF-DETR ist ein Open-Source-Objekterkennungsmodell, das vom Roboflow-Team entwickelt wurde. Es basiert auf der Transformer-Architektur und sein Hauptmerkmal ist die Echtzeit-Effizienz. Zum ersten Mal erreicht das Modell eine Echtzeit-Erkennung von über 60 APs im Microsoft COCO-Datensatz und schneidet auch im RF100-VL-Benchmark gut ab...

HumanOmni ist ein quelloffenes multimodales Big Model, das vom HumanMLLM-Team entwickelt und auf GitHub gehostet wird. Es konzentriert sich auf die Analyse von menschlichen Videos und kann sowohl Bild als auch Ton verarbeiten, um Emotionen, Handlungen und Gesprächsinhalte zu verstehen. Für das Projekt wurden 2,4 Millionen menschenzentrierte Videoclips und 14 Millionen...

Vision Agent ist ein Open-Source-Projekt, das von LandingAI (Enda Wu's Team) entwickelt und auf GitHub gehostet wird, um Benutzern zu helfen, schnell Code zur Lösung von Computer-Vision-Aufgaben zu generieren. Es verwendet ein fortschrittliches Agenten-Framework und ein multimodales Modell, um effizienten Vision AI-Code mit einfachen...

Make Sense ist ein kostenloses Online-Tool zur Bildkommentierung, das Benutzern helfen soll, Datensätze für Computer-Vision-Projekte schnell vorzubereiten. Es erfordert keine komplizierte Installation, sondern lediglich einen Browser-Zugang, unterstützt mehrere Betriebssysteme und ist ideal für kleine Deep-Learning-Projekte. Benutzer können damit Bilder beschriften und die Ergebnisse in eine Vielzahl von Formaten exportieren, z. B. in...

YOLOv12 ist ein Open-Source-Projekt, das vom GitHub-Benutzer sunsmarterjie entwickelt wurde und sich auf Echtzeit-Zielerkennungstechnologie konzentriert. Das Projekt basiert auf der YOLO (You Only Look Once)-Reihe von Frameworks, die Einführung von Aufmerksamkeitsmechanismen zur Optimierung der Leistung traditioneller Faltungsneuronaler Netze (CNN), nicht nur ...

VLM-R1 ist ein Open-Source-Projekt zur visuellen Sprachmodellierung, das von Om AI Lab entwickelt und auf GitHub gehostet wird. Das Projekt basiert auf DeepSeeks R1-Ansatz, kombiniert mit dem Qwen2.5-VL-Modell, und verbessert das Modell durch Verstärkungslernen (R1) und überwachte Feinabstimmung (SFT) in...

HealthGPT ist ein hochmodernes medizinisches visuelles Sprachmodell, das entwickelt wurde, um ein einheitliches medizinisches visuelles Verständnis und Generierungsfähigkeiten durch heterogene Wissensanpassung zu ermöglichen. Das Ziel des Projekts ist die Integration von medizinischem Sehverständnis und Generierungsfähigkeiten in ein einheitliches autoregressives Framework, das die Effizienz und Genauigkeit der medizinischen Bildverarbeitung deutlich verbessert.HealthGPT unterstützt eine Vielzahl von...

MedRAX ist eine hochmoderne KI-Intelligenz, die speziell für die Analyse von Röntgenaufnahmen der Brust (CXR) entwickelt wurde. Es integriert hochmoderne CXR-Analysetools und multimodale große Sprachmodelle, um komplexe medizinische Anfragen dynamisch zu verarbeiten, ohne dass zusätzliches Training erforderlich ist.MedRAX bietet durch seinen modularen Aufbau und seine starke technologische Grundlage ein...

Agentic Object Detection ist ein fortschrittliches Zielerkennungswerkzeug von Landing AI. Das Tool vereinfacht den Prozess der herkömmlichen Zielerkennung erheblich, indem es Textaufforderungen für die Erkennung verwendet, ohne dass Datenkommentare und Modelltraining erforderlich sind. Benutzer laden einfach ein Bild hoch und geben die Erkennungsaufforderungen ein, und der KI-Agent...

CogVLM2 ist ein quelloffenes multimodales Modell, das von der Tsinghua University Data Mining Research Group (THUDM) entwickelt wurde. Es basiert auf der Llama3-8B-Architektur und soll eine vergleichbare oder sogar bessere Leistung als GPT-4V bieten. Das Modell unterstützt das Verstehen von Bildern, den Dialog in mehreren Runden und das Verstehen von Videos und ist in der Lage, Inhalte mit einer Länge von bis zu 8K zu verarbeiten, und unterstützt bis zu 1...

Deeptrain ist eine Plattform, die sich auf die KI-Videobearbeitung konzentriert und dank ihrer fortschrittlichen Technologie, die über 200 Sprachmodelle unterstützt, Videoinhalte effektiv in verschiedene KI-Anwendungen integrieren kann. Benutzer können Modelle direkt trainieren, indem sie Video-URLs bereitstellen, ohne die Videos herunterladen zu müssen.Deeptrain bietet eine Reihe von Videotranskriptions- und...

Gaze-LLE ist ein Tool zur Blickzielvorhersage, das auf einem groß angelegten Lern-Encoder basiert. Entwickelt von Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman und James M. Rehg, zielt es darauf ab, vortrainierte visuelle...
zurück zum Anfang

