Fahrplan für die Einführung der mehrsprachigen Unterstützung
Obwohl Englisch und Chinesisch derzeit die wichtigsten unterstützten Sprachen sind, können die Sprachfähigkeiten durch die folgenden Methoden erweitert werden:
- Phase der Datenaufbereitung
- Aufbau eines Parallelkorpus:
- Sammlung von Mathe-Themen in der Zielsprache (z. B. Spanisch)
- Verwenden Sie die Übersetzungs-API, um die entsprechende englische Version zu erstellen
- Beibehaltung der gleichen Bilder und Antworten zur Bildung zweisprachiger JSONL-Dateien
- Beispiel für das Datenformat:
{"conversations":[{"role":"user","content":"¿Cuál es el área del círculo?||What is the area of the circle?"}]}
- Aufbau eines Parallelkorpus:
- Phase der Feinabstimmung des Modells
- ausnutzen
train.py(in Form eines Nominalausdrucks)--cross_lingualParadigma - Legen Sie den Parameter für die Sprachgewichtung in der Verlustfunktion fest (siehe das offizielle Dokument Anhang B).
- ausnutzen
- Tipps zur Optimierung von Schlussfolgerungen
- Hinzufügen eines Spracherkennungsvormoduls (kann mit fastText integriert werden)
- Bei nicht-lateinischen Schriften (z. B. Arabisch) wird empfohlen, zunächst die Textrichtung zu korrigieren.
beabsichtigte WirkungTests zeigen, dass die Methode eine muttersprachliche Genauigkeit von 85%+ auf Französisch und Deutsch erreichen kann.
Diese Antwort stammt aus dem ArtikelMM-EUREKA: Ein multimodales Reinforcement Learning Tool zur Erforschung des visuellen DenkensDie































