AIRouter unterstützt multimodale Eingaben und Funktionsaufrufe, indem die API wie folgt erweitert wird:
- Multimodale Eingänge::
1. die Bilder müssen z. B. in das Base64-Format konvertiert werden:with open("image.jpg", "rb") as f: img_base64 = base64.b64encode(f.read()).decode()
2. aufrufegenerate_mm
Methode, die ein Modell angibt, das Multimodalität unterstützt (z. B. GPT-4o):LLM_Wrapper.generate_mm(model_name="gpt4o_mini", prompt="描述图片", img_base64=img_base64)
- Funktionsaufruf::
1. eine Liste von Werkzeugen (z. B. Wetterabfragefunktionen) mit Namen, Beschreibungen und Parametern zu definieren.
2. die Annahmefunction_calling
Methodenauslöser, zum Beispiel:LLM_Wrapper.function_calling(model_name="gpt4o_mini", prompt="北京天气", tools=tools)
zur Kenntnis nehmenEs muss sichergestellt werden, dass das ausgewählte Modell die entsprechende Funktion unterstützt (z.B. GPT-4o unterstützt multimodal), andernfalls wird ein Fehler zurückgegeben.
Diese Antwort stammt aus dem ArtikelAIRouter: ein intelligentes Routing-Werkzeug zum Aufrufen mehrerer Modelle mit einer einheitlichen API-SchnittstelleDie