海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする

DolphinはByteDanceによって開発されたオープンソースの文書画像解析ツールで、テキスト、表、数式、スキャンやPDFファイルを含む画像などの複雑な文書画像の処理に焦点を当てています。最初にドキュメントのページレイアウトを解析し、自然な読み順で要素の並びを生成します。次に、異種アンカーとタスク固有のヒントを使用して、ドキュメントの要素を並列に解析します。Dolphinは、ページレベルと要素レベルの解析タスクで幅広く優れたパフォーマンスを発揮します。Dolphinは、軽量なアーキテクチャと効率的な性能のバランスをとりながら、ページレベルや要素レベルの構文解析の幅広いタスクで優れた性能を発揮します。このツールはACL2025で発表され、事前に学習されたモデルと推論コードが開発者のために提供されています。コードとモデルはGitHubリポジトリで公開されており、オンラインデモも用意されている。

ドルフィン-1

 

機能一覧

  • ページレイアウト分析:文書内のテキスト、表、数式、画像を自動的に識別し、要素を自然な読み順に配置します。
  • 並列要素解析:異種アンカーとタスク固有ヒントを用いて異なるタイプの文書要素を効率的に処理する。
  • マルチモーダル入力サポート:テキスト、画像、表、数式を含む複雑な文書画像を処理します。
  • 事前学習済みモデルの提供:ユーザーは事前学習済みモデルをダウンロードし、推論や二次開発に直接使用することができます。
  • オープンソースのサポート:詳細なコードとドキュメントが提供され、開発者のカスタマイズや機能拡張をサポートします。
  • オンライン・デモ・プラットフォーム:デモ・ドルフィンを通じて、ユーザーはオンラインで解析効果を試すことができます。

 

ヘルプの使用

設置プロセス

Dolphinを使うには、まずGitHubのリポジトリかHugging Faceからコードと事前学習済みモデルをダウンロードする必要があります。以下はインストールと使用方法の詳細です:

  1. 環境準備
    Python3.8以上を推奨します。以下の依存パッケージをインストールする必要があります:

    pip install torch torchvision
    pip install git-lfs
    

    大きなモデルファイルをダウンロードするために、システムにGitとGit LFSがインストールされていることを確認してください。

  2. コードとモデルのダウンロード
    Dolphinのコードとモデルには以下の方法でアクセスできます:

    • GitHubからコードをダウンロードする::
      git clone https://github.com/bytedance/Dolphin
      cd Dolphin
      
    • ハギング・フェイスのモデルをダウンロード::
      git lfs install
      git clone https://huggingface.co/ByteDance/Dolphin ./hf_model
      

      あるいは、ハギング・フェイスCLIを使う:

      huggingface-cli download ByteDance/Dolphin --local-dir ./hf_model
      
    • モデルファイルは、Baidu YunまたはGoogle Driveからダウンロードすることもできます。 ./checkpoints フォルダー
  3. 設定環境
    コードをダウンロードしたら、プロジェクト・ディレクトリに移動して ./config/Dolphin.yaml モデルのパスとパラメータが正しいことを確認するための設定ファイル。コンフィギュレーション・ファイルにはモデル・アーキテクチャと推論設定が含まれており、必要に応じてユーザーが調整することができます。
  4. ランタイム環境の検証
    インストールが完了したら、以下のコマンドを実行して環境を確認する:

    python -m demo_element.py --help
    

    コマンドがヘルプ情報を正常に出力すれば、環境設定は成功である。

使用方法

Dolphinは、単一ドキュメントの画像処理を容易にするコマンドラインインターフェイスを提供します。主な機能の使い方を紹介します:

  1. 単一フォーム画像の処理
    表を含む画像を解析するには、以下のコマンドを実行する:

    python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/table_1.jpeg --element_type table
    

    このコマンドは表画像を分析し、表の内容を抽出し、構造化された出力を生成する。出力は通常JSON形式で、表の行、列、セルを含む。

  2. 数式画像の処理
    数学の公式画像はこちら:

    python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/line_formula.jpeg --element_type formula
    

    Dolphinは数式を認識し、編集やレンダリングのためにLaTeXフォーマットに変換します。

  3. テキスト段落画像の処理
    テキストの段落を解析するには

    python demo_element.py --config ./config/Dolphin.yaml --input_path ./demo/element_imgs/para_1.jpg --element_type text
    

    コマンドは、段落構造と書式を保持したままテキスト内容を抽出します。

  4. オンラインデモ
    ローカルにデプロイしたくない場合は、Demo-Dolphinプラットフォーム(GitHubリポジトリにリンクあり)をご覧ください。プラットフォーム上にドキュメントの画像をアップロードし、要素の種類(例:テーブル、テキスト、数式)を選択して、解析結果をご覧ください。このプラットフォームは素早いテストに適しており、環境の設定も必要ありません。

注目の機能操作

  • ページレイアウト分析Dolphinはまず文書画像全体をスキャンし、ページ上の要素(見出し、段落、表など)を識別し、自然な読み順に並べます。この方法は要素が間違った順序で認識されるのを防ぐため、複雑な文書の処理に適しています。
  • 並列パース: Dolphinは異種アンカーを使用し、異なる要素タイプ(例:テーブル、数式)に特定のヒントを割り当てることで、複数の要素を同時に解析することができ、効率が飛躍的に向上します。
  • 軽量アーキテクチャ他の文書解析モデルと比較して、Dolphinのモデルは小さく、高速に推論できるため、リソースに制約のあるデバイスでの実行に適しています。

ほら

  • 入力画像が鮮明であることを確認してください。不鮮明な画像や低解像度の画像は解像度に影響を与える可能性があります。
  • 大きな文書の場合、精度を上げるために、塊ごとに処理し、ページごとに画像をアップロードすることをお勧めします。
  • モデルの読み込みに問題がある場合は ./checkpoints フォルダ内のモデルファイルは完成しています。
  • 最新の設定方法とFAQについては、GitHubリポジトリのREADMEファイルを参照してください。

 

アプリケーションシナリオ

  1. 学術研究文書処理
    研究者はDolphinを使って、スキャンした学術論文を解析し、数式や表、テキストコンテンツを抽出することができます。例えば、PDF形式の論文を構造化データに変換し、さらなる分析やアーカイブに利用することができます。
  2. 企業文書のデジタル化
    ドルフィンを使って、スキャンした紙の契約書や報告書、請求書を編集可能なデジタルフォーマットに変換できます。フォームやテキストの自動抽出により、データ入力の効率が劇的に向上します。
  3. 教育資料の照合
    先生や学生はDolphinを使って教材の数式や図を解析することができます。例えば、数学の教科書のページをスキャンしてLaTeX形式に変換し、オンラインで教えたり、ノートを取ったりすることができます。
  4. ファイル管理
    アーキビストはドルフィンを使って、スキャンした歴史的文書を処理し、重要な情報を抽出し、アーカイブや検索が簡単にできるように構造化されたデータを作成することができます。

 

品質保証

  1. Dolphinはどのようなドキュメントエレメントをサポートしていますか?
    Dolphinはテキスト、表、数式、画像の解析をサポートします。スキャンしたPDFファイルや写真など、これらの要素を含む複雑なドキュメントの画像を扱うことができます。
  2. 構文解析の精度を上げるには?
    入力には高解像度で鮮明な画像を使用する。ドキュメントの背景はシンプルにし、邪魔な要素が多すぎないようにする。大きな文書の場合は、ページごとに処理することをお勧めします。
  3. ドルフィンは無料ですか?
    はい、Dolphinはオープンソースツールです。ユーザーは自由にコードとモデルをダウンロードし、自由に使用、改変することができます。
  4. 強力なハードウェアサポートが必要ですか?
    Dolphinは軽量なアーキテクチャを採用しているため、通常のコンピュータでの動作に適していますが、推論を高速化するためにGPUの搭載を推奨します。最小構成は8GBのRAMと4GBのビデオメモリです。
  5. 最新のアップデートを入手するには?
    最新のコード、モデル、ドキュメントの更新については、GitHubリポジトリ(https://github.com/bytedance/Dolphin)またはHugging Faceページをフォローしてください。
0ブックマークに登録
0表彰される

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

新着情報

受信箱

お問い合わせ

トップに戻る

ja日本語