MiniMind-V unterstützt als visuelles Sprachmodell drei Kerntypen von Szenarien:
- cross-modale Suche: durch
eval_vlm.pyBild und Text abgleichen Suche - Erzeugung von BildbeschreibungenEingabe eines beliebigen Bildes, um automatisch eine Textbeschreibung zu generieren
- Visuelle Fragen und AntwortenVerstehen Sie die Bilder im Zusammenhang mit dem CLIP-Modell und beantworten Sie die Fragen
Prozess der Bereitstellung::
- Laden Sie die multimodale Komponente herunter:
git clone https://huggingface.co/jingyaogong/MiniMind2-V- Holt das CLIP-Modell zum angegebenen Pfad:
./model/vision_model
- Führen Sie den Interaktionstest durch:
- aktivieren (einen Plan)
python eval_vlm.py --load 1 - Gleichzeitige Eingabe von Bildpfaden und Textbefehlen
- aktivieren (einen Plan)
- Zugang zu API-Diensten:
- runderneuern
serve_openai_api.pyUnterstützung von multipart/form-data
- runderneuern
Der wichtigste technische Punkt ist die Ausrichtung des visuellen Codierers auf den Einbettungsraum des Sprachmodells.
Diese Antwort stammt aus dem ArtikelMiniMind: 2 Stunden Training von Grund auf 26M Parameter GPT Open Source ToolDie































