Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Antworten

Wie werden multimodale Eingaben (z. B. Bild + Text) und Funktionsaufrufe in AIRouter behandelt?

2025-08-21 214

AIRouter unterstützt multimodale Eingaben und Funktionsaufrufe, indem die API wie folgt erweitert wird:

  • Multimodale Eingänge::
    1. die Bilder müssen z. B. in das Base64-Format konvertiert werden:
    with open("image.jpg", "rb") as f: img_base64 = base64.b64encode(f.read()).decode()
    2. aufrufegenerate_mmMethode, die ein Modell angibt, das Multimodalität unterstützt (z. B. GPT-4o):
    LLM_Wrapper.generate_mm(model_name="gpt4o_mini", prompt="描述图片", img_base64=img_base64)
  • Funktionsaufruf::
    1. eine Liste von Werkzeugen (z. B. Wetterabfragefunktionen) mit Namen, Beschreibungen und Parametern zu definieren.
    2. die Annahmefunction_callingMethodenauslöser, zum Beispiel:
    LLM_Wrapper.function_calling(model_name="gpt4o_mini", prompt="北京天气", tools=tools)

zur Kenntnis nehmenEs muss sichergestellt werden, dass das ausgewählte Modell die entsprechende Funktion unterstützt (z.B. GPT-4o unterstützt multimodal), andernfalls wird ein Fehler zurückgegeben.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Neue Veröffentlichungen

zurück zum Anfang

de_DEDeutsch