海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

OCR

 ウェブサイトを投稿する

DeepSeek-OCR: オープンソースの光学式文字認識 (OCR) ツール
DeepSeek-OCRは、DeepSeek-AIによって開発され、オープンソース化された光学式文字認識（OCR）ツールです。大規模言語モデル（LLM）の観点から視覚コーダーの役割を再考する「文脈的光学圧縮」と呼ばれる新しいアプローチを提案しています。このツールは、単に...
10-25 2.3 K0表彰される
dots.ocr: 多言語文書レイアウト解析のための統一された視覚言語モデル
dots.ocrは、1.7Bパラメータの視覚言語モデル(VLM)をベースとした、レイアウト検出とコンテンツ認識の両方が可能な強力な多言語文書解析ツールです。OmniDocBenchなどのベンチマークで最先端の性能を発揮し、特にテキスト、表、読み順の構文解析に優れています。.
08-10 7.3 K0表彰される
SnippAI：AIを使ってスクリーンショットの内容を認識・分析するツール
SnippaiはAIベースのスクリーンショットツールで、高度なAIアルゴリズムによってスクリーンショット体験を向上させるように設計されています。画面の内容をキャプチャするだけでなく、スクリーンショット内の数式、テキスト、表、画像などをインテリジェントに分析・変換します。ユーザーは、Snippaiを使用して、複雑な視覚情報をLaTeX数式などの編集可能な形式に変換することができます...
08-10 2.2 K0表彰される
AI Fast Station：ワンクリックでOCRモデルを比較できる文書解析ツール
AI Fast Stationは、文書や画像のインテリジェントな解析に焦点を当てた、無料のオープンソースOCRモデルアリーナです。ユーザーはPDFや画像ファイルをアップロードし、ワンクリックで7つの主流OCRモデルを比較することで、素早く適切な解析ソリューションを見つけることができます。AI Fast Stationは、高精度認識、高速処理、セキュリティを提供します。.
08-09 2.0 K0表彰される
Docstrange: ドキュメントや画像からデータを抽出し、複数のフォーマットに変換するツール。
Docstrangeは、複数のフォーマットの文書や画像からデータを抽出し、Markdown、JSON、CSV、HTMLなどのフォーマットに変換することに重点を置いたオープンソースの文書処理ツールです。人工知能と高度なOCR技術を使用し、PDF、Word文書、Exce...
08-04 3.7 K0表彰される
Guava Intelligent Document Recognition: オフライン文書・フォームのインテリジェント認識ツール
Guavaインテリジェント文書認識（intelligent_document_recognition）は、開発者のjiangnanboyによって開発されたオープンソースのデスクトップソフトウェアで、GitHubでホストされています。このソフトウェアは、光学式文字認識（OCR）とフォームジャンクションを統合しています...
07-29 1.7 K0表彰される
OCRFlux: PDFや画像をMarkdownに変換する軽量ツール
OCRFluxは、PDFファイルや画像をクリアなMarkdownフォーマットに変換することに特化した、オープンソースの軽量ツールです。ChatDOCチームによって開発され、3Bのパラメータを持つ大規模なマルチモーダルモデル上に構築され、GTX 3090のような一般的なハードウェア上で実行することができます。このツールは、複雑なドキュメント・レイアウトの扱いに優れています。
07-22 2.6 K0表彰される
VOP: 複雑な図や数式を抽出するOCRツール
Versatile OCR Programは、複雑な学術・教育文書を処理するために設計されたオープンソースの光学式文字認識（OCR）ツールです。PDF、画像、その他の文書からテキスト、表、数式、図、回路図を抽出し、機械学習の学習に適した構造化データを生成することができます。英語、中国語、韓国語を含む多言語をサポートします。.
04-12 2.7 K0表彰される
PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。
それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します：ビジュアルモデル（Vision Grid Transfor...
04-09 3.2 K0表彰される
RolmOCR: 手書き文字と斜め文字を認識する文書OCRモデル
RolmOCRは、Reducto AIチームによって開発されたオープンソースの光学式文字認識（OCR）ツールで、Qwen2.5-VL-7B視覚言語モデルに基づいています。類似のツールolmOCRよりも高速に画像やPDFファイルからテキストを抽出でき、メモリフットプリントも低くなっています。
04-07 3.9 K0表彰される
uniOCR: クロスプラットフォームのオープンソーステキスト認識ツール
uniOCRはmediar-aiチームによって開発されたオープンソースのテキスト認識ツールです。Rust言語をベースにしており、macOS、Windows、Linuxをサポートしている。画像からテキストを抽出することができ、操作が簡単で無料です。uniOCRの主な特徴は、クロスプラットフォームのサポートです...
04-04 2.6 K0表彰される
PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール
PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースのツールです。oomol-labによって開発され、電子書籍を整理するのが好きなユーザーのためにGitHubでホストされている。このツールはローカルのAIモデルで動作し、インターネット接続を必要としないため、プライバシーを保護し、操作を容易にします。このツールは...
03-24 3.7 K0表彰される
SmolDocling：少量で効率的な文書処理のための視覚言語モデル
SmolDoclingは、ds4sdチームがIBMと共同で開発した視覚言語モデル（VLM）で、SmolVLM-256Mをベースにしており、Hugging Faceプラットフォームでホストされています。SmolDoclingは、わずか256Mのパラメータを持つ世界最小のVLMで、そのコア機能は...
03-18 3.2 K0表彰される
ミストラルOCR：94.89%総合精度、1000ページ/30秒、わずか1ドル
人類文明の長い歴史の中で、情報の取得・分析方法が飛躍的に進歩するたびに、社会の進歩に大きく貢献してきた。古代の象形文字から、持ち運び可能なパピルス、その後の印刷機の出現、そして今日のデジタルの波に至るまで、技術革新のひとつひとつが人類の知識の普及範囲と応用の深さを大きく広げ、それがまた新たな技術革新の温床となってきた...。.
03-07 3.3 K0表彰される
Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出
Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを利用して画像からテキストを抽出する、強力な光学式文字認識（OCR）ツールキットです。このプロジェクトはPythonパッケージとして提供されており、またユーザーフレンドリーなStreamlitウェブアプリケーションインターフェースを提供しています。Ollamaは、以下のような幅広い視覚モデルをサポートしています。.
01-10 6.7 K0表彰される
STranslate
STranslateは、WPFによって開発されたすぐに使用できる翻訳とOCRツールです。このツールは、幅広い言語とテキストタイプに対して、効率的で便利な翻訳と光学式文字認識（OCR）機能を提供するように設計されています。STranslateはオープンソースプロジェクトで、ユーザーが無料でダウンロードして使用できるほか、カスタム開発も受け付けています。.
12-25 3.0 K0表彰される
VisionParser：領収書や請求書を高精度に処理するOCRツール、APIあり
VisionParser是一款专为处理收据和发票而设计的OCR（光学字符识别）工具。通过先进的生成式AI技术，VisionParser能够快速、准确地将各种收据和发票转换为结构化数据，适用于零售、餐饮、B2B服务等多种业务场景。其灵活的AP...
12-18 2.5 K0表彰される
Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。
Chunkrは、PDF、PPTX、DOCX、Excelファイルを、RAG（Retrieval Augmented Generation）やLLM（Large Language Modelling）で使用するのに適したデータに変換するためのセルフホストAPIです。このAPIはLumina AI Inc.によって開発され、高度なビジュアルモデルを使って文書...
12-13 2.9 K0表彰される
Llama OCR: 3行のコードで画像をMarkdownに変換するOCRライブラリ。
Llama OCRは、Llama 3.2 VisionをベースにしたOCR（光学式文字認識）ライブラリで、文書をMarkdown形式に変換します。このライブラリーはNutlopeによって開発され、Together AIがグラフ用に提供する無料のLlama 3.2インターフェースを使用しています。
12-11 3.6 K0表彰される