グアバ インテリジェント文書認識 (intelligent_document_recognition
)は、開発者のjiangnanboyによって開発されたオープンソースのデスクトップソフトウェアで、GitHubにホストされており、オフライン処理のための文書やフォームのインテリジェントな認識に焦点を当てています。このソフトウェアは、光学式文字認識(OCR)とフォーム構造認識を統合しており、データのプライバシーとセキュリティを確保するために、実行にインターネット接続を必要としません。画像やPDFからテキストや表を抽出し、txt、html、excel形式で保存することができます。このソフトウェアは英語と中国語の両方のインターフェイスをサポートし、最新バージョンv2.1では、より簡単な操作のためにスクリーンショット認識と画像リスト削除が追加されました。Guava Intelligent Document Recognitionは、個人、ビジネス、教育機関のユーザーがドキュメントを扱うのに適しており、特にデータを効率的に整理する必要があるシナリオに適しています。
機能一覧
- オフラインOCR認識:インターネット接続なしで画像やPDFからテキストを抽出します。
- フォーム構造認識:フォームの内容を自動的に解析し、htmlまたはexcel形式で出力します。
- スクリーンショット認識(v2.1):マウスで画面の内容を囲み、リアルタイムでテキストを抽出します。
- 画像リスト管理:左サイドバーの画像ファイルの削除をサポート。
- マルチフォーマット出力:認識結果は、txt、htmlまたはexcelファイルとして保存できます。
- 中国語と英語のインターフェイス:中国語と英語のバージョンがあり、フレンドリーな操作インターフェイスを備えています。
ヘルプの使用
設置プロセス
Guava Smart Document Recognitionはデスクトップソフトウェアで、ダウンロードしてローカルデバイスにインストールする必要があります。以下は詳細なインストール手順です:
- ソフトウェアのダウンロード
最新バージョン(v2.1)は以下のチャンネルからダウンロードできます:- 中国語版 ::
- Baidu.com:
https://pan.baidu.com/s/1owzG74DLPxq6czEQC7ZNwQ
(抽出コード: nt3z) - ハグする顔:
https://huggingface.co/jiangnanboy/intelligent_document_recognition
- Baidu.com:
- 英語版 ::
- Baidu.com:
https://pan.baidu.com/s/1Cv-hG6fMDUhj9dd3Et1RuA
(抽出コード: rkrd) - ハグする顔:
https://huggingface.co/jiangnanboy/intelligent_document_recognition
ダウンロード後、zipファイルをローカルディレクトリに解凍します。C:\guava_document_recognition
.
- Baidu.com:
- 中国語版 ::
- Tesseract OCRのインストール
このソフトウェアは、テキスト認識にTesseract OCRエンジンを使用しています。インストール手順は以下の通り:- ウィンドウズ Tesseract GitHubからインストーラーをダウンロードし、インストールする。
- リナックス 実行コマンド
sudo apt-get install tesseract-ocr
. - マック 実行コマンド
brew install tesseract
.
インストールが完了したら、Tesseract実行ファイルへのパスがシステム環境変数に追加されていることを確認します(Windowsユーザーは手動で設定する必要があります)。
- オペレーティング・ソフトウェア
パッケージを解凍し、ダブルクリックして実行する。intelligent_document_recognition.exe
(Windows) または対応する実行ファイル。最初の実行では、OCR モデルのロードに数秒かかります。ソフトウェアが起動したら、中国語または英語のインターフェイスを選択します(ダウンロードしたバージョンによる)。
使用方法
Guava Intelligent Document Recognitionは、以下の機能の操作をサポートする直感的なグラフィカル・インターフェースを提供します:
- オフラインOCR認識
- ソフトウェアを開き、「ファイルアップロード」ボタンをクリックして画像(JPG、PNG)またはPDFファイルをインポートします。
- OCR認識」ボタンをクリックすると、ソフトウェアが自動的にファイル内のテキストを抽出します。
- 認識結果は右側のテキストボックスに表示され、編集または保存することができます。
txt
もしかしたらhtml
フォーマット- 保存」ボタンをクリックして、出力形式と保存パスを選択します。
- 例:議事録の写真をアップロードすると、ソフトがテキストを抽出し、次のように保存します。
notes.txt
.
- フォーム構造の識別
- フォームを含む画像またはPDFファイルをアップロードします。
- フォーム認識」オプションを選択すると、ソフトウェアがフォームの内容を自動的に解析します。
- 結果は次のように保存できます。
html
もしかしたらexcel
フォーマット- 表をエクスポート」ボタンをクリックし、フォーマットを選択して保存する。
- 例:財務諸表PDFのアップロード、ソフトウェアによる生成
report.xlsx
ファイルには、完全なテーブル・データが含まれている。
- スクリーンショット認識(v2.1の新機能)
- スクリーンショット」ボタンをクリックすると、ソフトウェアのインターフェイスが自動的に非表示になります。
- マウスを使って、画面上の対象領域(ウェブページや文書コンテンツなど)を枠で囲む。
- マウスを離すと、ソフトウェアがボックス内のテキストを認識し、テキストボックスに表示します。
- ユーザーは結果を編集したり
txt
もしかしたらhtml
. - 例:コーススケジュールを画面上にボックスで囲むと、ソフトウェアがテキストを抽出し、次のように保存します。
schedule.txt
.
- 画像リスト管理
- ソフトウェアの左の列には、アップロードされた画像のリストが表示されます。
- 不要な写真を選択し、"削除 "ボタンをクリックするか、または
Delete
キーで削除する。 - この機能は、無駄なファイルをクリーンアップするバッチ処理に適しています。
- 中国語と英語のインターフェース切り替え
- ソフトウェアは、ダウンロードしたバージョンに応じて中国語または英語のインターフェイスを表示し、同じ操作ロジックを持つ。
- 例えば、中国語版では "File Upload"、英語版では "Upload File "と表示される。
- ユーザーは必要に応じて適切な言語バージョンを選択することができます。
- バッチファイル
- 複数の画像またはPDFを、ソフトウェア内の指定フォルダに配置します(例
input
(フォルダ)。 - バッチ認識」機能を選択すると、ソフトウェアは自動的にすべてのファイルを処理し、結果を保存します。
- 出力ファイルはデフォルトで
output
フォルダのパスを変更することができます。
- 複数の画像またはPDFを、ソフトウェア内の指定フォルダに配置します(例
設定と最適化
- 出力フォーマットの調整 ソフトウェアのルートディレクトリを編集する
config.ini
ファイルで、デフォルトの出力フォーマットや保存パスを設定します:
[Output]
default_format = txt
save_path = ./output
- 識別精度の向上 入力ファイルは鮮明で、高解像度の画像(少なくとも 300 DPI)が最適です。不鮮明なファイルや低品質のファイルは、認識エラーの原因となります。
- ログデバッグ 識別結果が不正確な場合は、以下の項目をチェックしてください。
logs
フォルダーにあるログファイルからエラーの原因を分析する。 - パフォーマンス最適化 大きなファイルを処理するときは、他のリソースを占有するプログラムを閉じて処理速度を上げる。
ほら
- 文書の品質 アップロードされた画像やPDFは、正確に認識されるように、ぼやけや傾きがなく、鮮明である必要があります。
- システム互換性 このソフトウェアはWindows、Linux、Macに対応しており、Tesseract OCRが正しくインストールされている必要があります。
- データ機密保護 ソフトウェアは完全にオフラインで動作し、データはクラウドにアップロードされない。
- ソフトウェアの更新 Baidu.comやHugging Faceを定期的にチェックして最新バージョンをダウンロードし、古いバージョンのフォルダを上書きしてください。
- サポート ご質問がある場合は、WeChatの公開番号「Guava AI」を通じて開発者にお問い合わせください。
アプリケーションシナリオ
- エンタープライズ・ドキュメント管理
ビジネスユーザーは、スキャンした契約書、請求書、明細書をアップロードし、テキストや表を抽出して、編集可能な文書をすばやく作成し、オフィスの効率を向上させます。 - 学術研究支援
研究者は学術論文のPDFを処理し、主要なテキストや表を抽出し、簡単にデータ分析ができるようにtxtやexcelファイルに整理します。 - 教育資料の照合
教師は、テスト用紙や教科書のスキャンコピーをアップロードし、トピックや目次を抽出し、教材を整理し、オフライン操作をサポートします。 - 個人の効率向上
ユーザーはスクリーンショット機能を使って、会議の議事録やウェブコンテンツなど、画面からテキストを素早く抽出し、編集可能なファイルとして保存する。
品質保証
- Guavaインテリジェント文書認識はインターネット接続が必要ですか?
ソフトウェアは完全にオフラインで動作し、データ処理はプライバシーとセキュリティを保護するためにローカルで行われる。 - どのようなファイル形式に対応していますか?
JPG、PNG、PDF、その他のフォーマットに対応しています。 認識を向上させるため、高解像度のファイルをお勧めします。 - テキストが正しく認識されない場合はどうすればよいですか?
入力ファイルの鮮明度を確認するか、ソフトウェア設定で OCR 感度を調整してください。問題が解決しない場合は、開発者に連絡してフィードバックを求めてください。 - フォーム認識は複雑なフォームをサポートしていますか?
通常のテーブルをサポート。複雑なネストされたテーブルは、精度を向上させるために画像の前処理が必要になる場合があります。 - 最新バージョンへのアップデート方法は?
Baidu.comまたはHugging Faceからv2.1をダウンロードし、解凍して古いバージョンのフォルダに上書きする。