Hintergrund
Große Sprachmodelle stehen bei komplexen Information Retrieval-Aufgaben oft vor dem Problem unzureichender Daten, und herkömmliche Methoden erfordern eine große Menge an gelabelten Daten für das Training, was kostspielig und ineffizient ist.SimpleDeepSearcher löst dieses Problem effektiv durch innovative Datensynthese- und Destillationstechniken.
Zentrale Lösungen
- Simulation der Websuche: Das System simuliert das Suchverhalten realer Nutzer, einschließlich:
- Automatische Generierung von Mehrrunden-Inferenz-Trajektorien
- Erfassen von Suchbegriffen und Web-Ergebnissen
- Aufbau einer vollständigen Abruf-Reasoning-Kette
- Techniken der Datensynthese:
- Diversity Query Sampling aus Open Domain QA Ressourcen
- data_synthesis_config.json konfigurieren, um Feldüberschreibungen anzupassen
- Automatische Generierung von Trainingsdaten mit Problem-Suchpfad-Paaren
- Programm zur Wissensdestillation:
- Einsatz von Lehrermodellen (z. B. LLaMA/GPT) zur Erzeugung hochwertiger Daten
- Destillation.py zur Verbesserung der Datenqualität ausführen
- Optimierung der Datenqualität durch Iterationen der Selbstdistillation
Betriebsvorschlag
- Vorrangig wurden die im Rahmen des Projekts bereitgestellten 871 Proben guter Qualität als Grundlage verwendet.
- Erweiterung von Echtzeit-Webdaten mit GoogleSearchAPI
- Führen Sie response_curation.py regelmäßig aus, um Daten zu filtern
Diese Antwort stammt aus dem ArtikelSimpleDeepSearcher: Ein intelligentes Retrieval-Tool zur Verbesserung großer Sprachmodelle durch WebsucheDie