OmniParseは、あらゆる非構造化データを、GenAI(生成的人工知能)フレームワーク用に最適化された、構造化された実用的なデータに変換するために設計された、強力なデータ解析および最適化プラットフォームです。ドキュメント、テーブル、イメージ、ビデオ、オーディオファイル、ウェブコンテンツなど、OmniParseはデータをクリーンで構造化し、RAG(Retrieval Augmented Generation)やファインチューニングなどのAIアプリケーションに対応できるようにします。


- オープンソースのデモアドレス:https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb
機能一覧
- 完全にローカライズされ、外部APIは不要
- T4 GPU用
- 約20種類のファイルをサポート
- ドキュメント、マルチメディア、ウェブページを高品質な構造化Markdownに変換
- テーブル抽出、画像抽出/字幕作成、音声/動画トランスクリプション、ウェブクローリング
- DockerとSkypilotによる簡単なデプロイメント
- フレンドリーなラボ環境
- GradioによるインタラクティブUI
ヘルプの使用
設置プロセス
- クローン倉庫::
git clone https://github.com/adithya-s-k/omniparse cd omniparse - 仮想環境の構築::
conda create -n omniparse-venv python=3.10 conda activate omniparse-venv - 依存関係のインストール::
poetry install # 或者 pip install -e . # 或者 pip install -r pyproject.toml
Dockerの使用
- Docker HubからOmniParse APIイメージを取り込む::
docker pull savatar101/omniparse:0.1 - Dockerコンテナを実行し、ポート8000を公開する。::
# 如果使用GPU docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1 # 否则 docker run -p 8000:8000 savatar101/omniparse:0.1
オペレーション・サーバー
- サーバーの起動::
python server.py --host 0.0.0.0 --port 8000 --documents --media --web--documents文書の解析と取り込みを支援するすべてのモデル(Surya OCRモデルファミリーやFlorence-2など)をロードします。--mediaWhisperモデルを読み込んで音声ファイルやビデオファイルを書き起こします。--webSeleniumクローラーのセットアップ。
サポートされるデータタイプ
- (さんぷ::
.doc,.docx,.pdf,.ppt,.pptx - イメージ::
.png,.jpg,.jpeg,.tiff,.bmp,.heic - ビデオ::
.mp4,.mkv,.avi,.mov - 音響周波数::
.mp3,.wav,.aac - ウェブページ動的ウェブページ。
http://.com
使用例
- 文書解像度::
python server.py --host 0.0.0.0 --port 8000 --documentsこれは、文書タイプのデータを処理する準備ができているすべての文書解析モデルをロードする。
- マルチメディア・パース::
python server.py --host 0.0.0.0 --port 8000 --mediaこれにより、Whisperモデルはオーディオおよびビデオファイルを処理する準備が整いました。
- ウェブクローラー::
python server.py --host 0.0.0.0 --port 8000 --webこれでSeleniumクローラーがセットアップされ、ウェブコンテンツを処理できるようになります。





























