Die Plattform unterstützt die Verarbeitung von sechs wichtigen Arten heterogener Datenquellen mit den folgenden Funktionen:
- DateiklasseEinschließlich PDF (Extraktion von Absätzen und Tabellen), Word (Umwandlung unter Beibehaltung der Formatierung), TXT (automatische Erkennung von Kodierungen)
- BildmaterialJPG/PNG und andere gängige Formate, Unterstützung für OCR-Texterkennung und Metadatenextraktion
- AudioklasseMP3/WAV usw. mit automatischer Generierung von Untertiteln für die Zeitleiste (z. B. im Format "00:01-opener")
- VideotypMP4/MOV, etc., mit Extraktion von visuellen Frame-Informationen (Thumbnail) und Sprache-zu-Text
- Web-KategorieUnterstützung für dynamisch gerenderte Seiten, Formular-Eingaben, Wasserfall-Laden und andere komplexe Strukturen
- API-DatenDirektes Parsen von JSON/XML-Antworten, Unterstützung für benutzerdefinierte Feldzuordnung
Was die Dateikapazität anbelangt, so verwendet die Plattform eine segmentierte Verarbeitungstechnologie:
- Die Basisversion unterstützt einzelne Dateien von ≤200MB.
- Die Enterprise Edition kann mehr als 500 MB an 4K-Videos oder Hunderte von Seiten an juristischen Dokumenten verarbeiten.
- Übergroße Dateien werden automatisch in Paketen verarbeitet, der Verarbeitungsstatus wird durch einen Fortschrittsbalken angezeigt, Unterstützung für intermittierende Übertragung
Es ist anzumerken, dass die Audio- und Videoverarbeitung mehr Token-Ressourcen verbraucht, und es wird empfohlen, externe Modelle (z. B. Whisper von OpenAI) einzubinden, um die Effizienz zu verbessern. Für sensible Daten wird die noch ausstehende Version von Docker für den privaten Einsatz vollständige Offline-Verarbeitungsmöglichkeiten bieten.
Diese Antwort stammt aus dem ArtikelSupametas.AI: Extraktion unstrukturierter Daten in hochverfügbare LLM-DatenDie