dots.ocrは、レイアウト検出とコンテンツ認識の両方が可能な、1.7Bパラメータの視覚言語モデル(VLM)に基づいた強力な多言語文書解析ツールです。OmniDocBenchなどのベンチマークにおいて、特にテキスト、表、読み順の構文解析において最先端の性能を発揮します。
SnippaiはAIベースのスクリーンショットツールで、高度なAIアルゴリズムによってスクリーンショット体験を向上させるように設計されています。画面の内容をキャプチャするだけでなく、スクリーンショット内の数式、テキスト、表、画像などをインテリジェントに分析・変換します。ユーザーはSnippaiを使って、複雑な視覚情報をプログラム可能な...
AI Fast Stationは、文書や画像のインテリジェントな解析に焦点を当てた、無料のオープンソースOCRモデルアリーナです。ユーザーはPDFや画像ファイルをアップロードし、ワンクリックで7つの主流OCRモデルを比較することで、素早く適切な解析ソリューションを見つけることができます。このサイトは、様々な形式のファイルをサポートし、複雑なインストールなしで簡単に操作できます。
Docstrangeは、複数のフォーマットの文書や画像からデータを抽出し、Markdown、JSON、CSV、HTMLなどのフォーマットに変換することに重点を置いたオープンソースの文書処理ツールです。人工知能と高度なOCR技術を使用し、PDF、Word文書、Exce...
Guavaインテリジェント文書認識(intelligent_document_recognition)は、開発者のjiangnanboyによって開発されたオープンソースのデスクトップソフトウェアで、GitHubでホストされています。このソフトウェアは、光学式文字認識(OCR)とフォームジャンクションを統合しています...
OCRFluxは、PDFファイルや画像をクリアなMarkdownフォーマットに変換することに特化した、オープンソースの軽量ツールです。ChatDOCチームによって開発され、3Bのパラメータを持つ大規模なマルチモーダルモデル上に構築され、GTX 3090のような一般的なハードウェア上で実行することができます。このツールは、複雑なドキュメント・レイアウトの扱いに優れています。
Versatile OCR Programは、複雑な学術・教育文書を処理するために設計されたオープンソースの光学式文字認識(OCR)ツールです。PDF、画像、その他の文書からテキスト、表、数式、図、回路図を抽出し、機械学習の学習に適した構造化データを生成することができます。サポート...
それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します:ビジュアルモデル(Vision Grid ...
RolmOCRは、Reducto AIチームによって開発されたオープンソースの光学式文字認識(OCR)ツールで、Qwen2.5-VL-7B視覚言語モデルに基づいています。類似のツールolmOCRよりも高速に画像やPDFファイルからテキストを抽出でき、メモリフットプリントも低くなっています。
uniOCRはmediar-aiチームによって開発されたオープンソースのテキスト認識ツールです。Rust言語をベースにしており、macOS、Windows、Linuxをサポートしている。画像からテキストを抽出することができ、操作が簡単で無料です。uniOCRの主な特徴は、クロスプラットフォームのサポートです...
PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースのツールです。oomol-labによって開発され、GitHubでホストされている。このツールはローカルのAIモデルで動作し、インターネット接続を必要としないため、プライバシーを保護し、操作を容易にします。
SmolDoclingは、ds4sdチームがIBMと共同で開発した視覚言語モデル(VLM)で、SmolVLM-256Mをベースにしており、Hugging Faceプラットフォームでホストされています。SmolDoclingは、わずか256Mのパラメータを持つ世界最小のVLMで、そのコア機能は...
人類の文明の長い歴史の中で、情報の取得と解析の方法が飛躍的に進歩するたびに、社会は大きく発展してきた。古代の象形文字から、持ち運び可能なパピルス、その後の印刷機の出現、そして今日のデジタルの波に至るまで、技術革新のたびに人類の知識の伝達は大きく拡大してきた。
Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを利用して画像からテキストを抽出する、強力な光学式文字認識(OCR)ツールキットです。このプロジェクトはPythonパッケージとして提供されており、ユーザーフレンドリーなStreamlitウェブアプリケーションインターフェースを提供しています。様々な視覚モデルをサポートしている。
STranslateは、WPFによって開発されたすぐに使用できる翻訳とOCRツールです。このツールは、幅広い言語とテキストタイプに対して、効率的で便利な翻訳と光学式文字認識(OCR)機能を提供するように設計されています。STranslateはオープンソースプロジェクトであり、ユーザーは無料でダウンロードして使用することができます。
VisionParserは、領収書や請求書を処理するために設計されたOCR(光学式文字認識)ツールです。高度な生成AI技術により、VisionParserは、小売、ケータリング、B2Bサービスなどの幅広いビジネスシーンで、あらゆる種類の領収書や請求書を迅速かつ正確に構造化データに変換することができます。
Chunkrは、PDF、PPTX、DOCX、Excelファイルを、RAG(Retrieval Augmented Generation)やLLM(Large Language Modelling)で使用するのに適したデータに変換するためのセルフホストAPIです。このAPIはLumina AI Inc.によって開発され、高度なビジュアルモデルを使って文書...
Llama OCRは、Llama 3.2 VisionをベースにしたOCR(光学式文字認識)ライブラリで、文書をMarkdown形式に変換します。このライブラリーはNutlopeによって開発され、Together AIがグラフ用に提供する無料のLlama 3.2インターフェースを使用しています。
Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDoc、およびMarkdownを含む幅広い文書フォーマットをサポートする、強力な文書解析およびエクスポートツールです。
トップに戻る