Umsetzungsplan für den Aufbau einer standardisierten Bewertungsplattform
Für Modellvergleiche, die für die akademische Forschung erforderlich sind, können mit DeepInfra automatisierte Testumgebungen erstellt werden:
- Vorbereitung des Testdatensatzes::
1. die Verwendung von plattformunterstütztenapplication/jsonlinesFormat Batch Import Problem Set
2. der Entwurf von Testfällen unter Einbeziehung von Komplexitätshierarchien (gesunder Menschenverstand/Vermutung/Fachgebiete) - Parallele Testarchitektur::
1. separate Test-Threads für jedes Modell erstellen
2. die Annahmemodel=meta-llama/Meta-Llama-3-70B-InstructSpezifizieren Sie das Modell mit Parametern wie
3. die Aufzeichnung von Metadaten wie Antwortlatenz, Ergebnislänge usw. - Quantitatives Bewertungssystem::
1. automatische Bewertung mit Algorithmen wie BLEU, ROUGE, usw.
2. die Erstellung einer manuellen Bewertungsskala (Skala 1-5)
3. die Erstellung von Schlüsselindikatoren für die Visualisierung von vergleichenden Radarkarten
Beispiel für einen vollständigen Prozess:
1. parallele Anfragen mit Python-Multithreading starten
2. die Speicherung der Ergebnisse in Pandas DataFrame
3. die Verwendung von Matplotlib zur Darstellung von Kurven über die verstrichene Zeit und die Qualität
4. die Ausgabe des Bewertungsberichts im Markdown-Format
Diese Antwort stammt aus dem ArtikelDeepInfra Chat: Erleben und Aufrufen einer Vielzahl von quelloffenen Big Model Chat-DienstenDie
































