このプラットフォームは、6つの主要なタイプの異種データソースの処理をサポートし、以下の機能を備えている:
- ファイルクラスPDF (段落および表の抽出)、Word (書式変換の保持)、TXT (コーディング自動認識) を含む。
- イメージJPG/PNGおよびその他の一般的なフォーマット、OCRテキスト認識およびメタデータ抽出のサポート
- オーディオクラス: MP3/WAVなど、タイムライン字幕自動生成機能付き(例:"00:01-opener "フォーマット)
- ビデオタイプMP4/MOVなど、視覚的なフレーム情報(サムネイル)と音声テキストを抽出します。
- ウェブカテゴリー動的にレンダリングされるページ、フォーム送信、ウォーターフォールローディング、その他の複雑な構造をサポートします。
- APIデータJSON/XMLレスポンスの直接解析、カスタムフィールドマッピングのサポート
ファイル容量に関しては、このプラットフォームは分割処理技術を採用している:
- 基本バージョンは200MB以下の単一ファイルをサポートする。
- エンタープライズ・エディションは、500MB以上の4Kビデオや数百ページの法律文書を処理できます。
- オーバーサイズのファイルは自動的にチャンク単位で処理され、処理状況はプログレスバーで表示されます。
オーディオとビデオ処理はより多くのTokenリソースを消費するため、効率を向上させるために外部モデル(OpenAIのWhisperなど)をバインドすることをお勧めします。機密データについては、Dockerのプライベート・デプロイメント・バージョンが完全にオフライン処理機能を提供する予定です。
この答えは記事から得たものである。Supametas.AI:非構造化データをLLMの高可用性データに抽出するについて