Full-Flow-Lösung für multimodale Eingabeverarbeitung
Für multimodale Eingabeszenarien wie Bild + Text bietet AIRouter einen standardisierten Verarbeitungsablauf:
1. die Vorverarbeitung der Daten
- Die Bilder müssen in Base64-Kodierung umgewandelt werden (empfohlene Auflösung: nicht mehr als 1024 Pixel)
- Die Textaufforderungen müssen klare Verarbeitungsanweisungen enthalten (z. B. "Beschreiben Sie den Inhalt des Bildes").
2) Modellaufrufe
Verwenden Sie die Methode generate_mm und geben Sie ein Modell an, das Multimodalität unterstützt (derzeit wird gpt4o_mini empfohlen):
Antwort = LLM_Wrapper.generate_mm(
model_name="gpt4o_mini",
prompt="Bild beschreiben",
img_base64=Ihre_base64_Zeichenkette
)
3. die Behandlung von Ausnahmen
- Überprüfung des Protokolls auf Fehler vom Typ MultimodalError
- Bei der Bereitstellung von Docker muss sichergestellt werden, dass Abhängigkeiten für die Bildverarbeitung wie Pillow installiert sind.
Erweiterter Vorschlag: Für die medizinische Bildgebung und andere professionelle Bereiche wird empfohlen, mit professionellen Anmerkungswerkzeugen zu arbeiten, um die Bilder vor der Eingabe zu bearbeiten.
Diese Antwort stammt aus dem ArtikelAIRouter: ein intelligentes Routing-Werkzeug zum Aufrufen mehrerer Modelle mit einer einheitlichen API-SchnittstelleDie