Stapelintegration von mehreren Quellen mit OneFileLLM
Die herkömmliche LLM-Eingabevorbereitung erfordert die manuelle Erfassung heterogener Daten wie GitHub-Code, Papier-PDFs, Videotranskripte usw., was sowohl zeitaufwändig als auch fehleranfällig ist. Im Folgenden finden Sie die spezifische Lösung:
- automatisiertes Kriechen: Geben Sie die URL des GitHub-Repositorys direkt in der Befehlszeile ein (z. B.
https://github.com/jimmc414/onefilellm), durchsucht das Werkzeug automatisch und rekursiv die .py/.md-Dateien im Repository. - Plattformübergreifende AnalyseDie Analyse von arXiv-Papieren (z. B.
https://arxiv.org/abs/2401.14295) lädt die PDF-Datei automatisch herunter und extrahiert den Text, YouTube-Links (z. B.https://www.youtube.com/watch?v=KZ_NlnmPQYk) Automatische Erfassung von Transkripten - Strukturierte AusgabeAlle Inhalte werden automatisch im XML-Format gekapselt und es werden drei standardisierte Dateien erzeugt:
uncompressed_output.txt(Originaltext)compressed_output.txt(vorverarbeiteter Text)processed_urls.txt(Quelladresse aufgezeichnet)
Nach der Installation ist es möglich, diepython onefilellm.py --webEinführung einer visuellen Schnittstelle, die auch von technisch nicht versierten Benutzern leicht bedient werden kann.
Diese Antwort stammt aus dem ArtikelOneFileLLM: Integration mehrerer Datenquellen in eine einzige TextdateiDie































