AutoForm是一个使用人工智能技术,旨在将用户从重复的数据复制和粘贴工作中解放出来的工具。 它的核心功能是作为一个“AI数据录入代理”,能够读取和理解多种格式的非结构化文件,例如PDF文档、电子表格、邮件、网...
OCRmyPDFは、スキャンしたPDFファイルに光学式文字認識(OCR)テキストレイヤーを追加し、検索可能で再現可能なドキュメントに変換するために設計されたオープンソースのコマンドラインツールです。Python開発に基づいており、Tesseract OCRエンジンを使用して、画像内のテキストを正確に識別し、PDFファイルに埋め込むことができます。
Docstrangeは、複数のフォーマットの文書や画像からデータを抽出し、Markdown、JSON、CSV、HTMLなどのフォーマットに変換することに重点を置いたオープンソースの文書処理ツールです。人工知能と高度なOCR技術を使用し、PDF、Word文書、Exce...
LangExtractは、Googleが開発したオープンソースのPythonライブラリで、非構造化テキストから構造化データを抽出することに特化している。Google Geminiファミリーのような大規模な言語モデル(LLM)を使用し、正確な原文の位置やインタラクティブな視覚化機能と組み合わせることで、複雑なテキストを素早く構造化することができます。
MD-TOOLは、Markdownフォーマットと他のファイルフォーマット間の変換サービスに特化した無料のオンラインツールセットサイトです。このサイトの主な特徴は、MarkdownテキストからHTMLコードへのリアルタイム変換、HTMLコードからMarkdownテキストへの変換、Markdownドキュメントから...
OCRFluxは、PDFファイルや画像をクリアなMarkdownフォーマットに変換することに特化した、オープンソースの軽量ツールです。ChatDOCチームによって開発され、3Bのパラメータを持つ大規模なマルチモーダルモデル上に構築され、GTX 3090のような一般的なハードウェア上で実行することができます。このツールは、複雑なドキュメント・レイアウトの扱いに優れています。
ytt-mcpはオープンソースのMCP(Model Context Protocol)サーバーツールで、YouTubeの動画から字幕を取り出し、処理するために特別に設計されています。cottongeeksチームによって開発され、GitHubでホストされています。ユーザーが簡単なコマンドやAIツールで素早く動画の字幕を抽出できるように設計されており、さらに...
WaterCrawlは、ユーザーがウェブページからデータを抽出し、大規模言語モデリング(LLM)処理に適したデータ形式に変換するために設計された、強力なオープンソースのウェブクローラツールです。Pythonの開発をベースに、Django、Scrapy、Celeryの技術を組み合わせ、効率的なウェブクローリングとデータ抽出をサポートしています。
OneFileLLMは、複数のデータソースを単一のテキストファイルに統合し、大規模言語モデル(LLM)を簡単に入力できるように設計されたオープンソースのコマンドラインツールです。GitHubリポジトリ、ArXiv論文、YouTube動画トランスクリプト、ウェブコンテンツ、Sci-Hub論文、ローカルファイルの処理をサポートし、自動的に構造を生成します。
Chatlogは、WeChatのローカルデータベースからチャットログを抽出してクエリすることに特化したオープンソースツールです。WeChatのバージョン3.xと4.0をサポートし、WindowsとmacOSシステムをカバーしています。ユーザーはコマンドライン、ターミナルインターフェース、HTTP APIから操作して、チャットログ、連絡先、グループチャット、...
Versatile OCR Programは、複雑な学術・教育文書を処理するために設計されたオープンソースの光学式文字認識(OCR)ツールです。PDF、画像、その他の文書からテキスト、表、数式、図、回路図を抽出し、機械学習の学習に適した構造化データを生成することができます。サポート...
DevDocsは、CyberAGIチームによって開発され、GitHubでホストされている完全に無料のオープンソースツールです。プログラマーやソフトウェア開発者のために設計されており、技術文書のURLから開始し、関連するページを自動的にクロールし、簡潔なMarkdownまたはJSONファイルに整理します。MCP ...
それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します:ビジュアルモデル(Vision Grid ...
serverless-markdown-convertorは、Cloudflare WorkerとWorkers AIをベースにした無料のオープンソースツールで、さまざまなファイルをMarkdown形式に変換します。PDF、画像、Officeドキュメント...
GPT-Crawlerは、BuilderIOチームによって開発され、GitHubでホストされているオープンソースツールです。1つ以上のウェブサイトのURLを入力することで、ページのコンテンツをクロールし、カスタムGPTまたはAIアシスタントを作成するために使用できる構造化ナレッジファイル(output.json)を生成します。ユーザー...
pure.mdは、AIエージェントや開発者のために設計されたツールで、ウェブコンテンツやファイルを素早くMarkdown形式に変換することに重点を置いています。プロキシサービスによるクローラー対策の制限を回避し、ウェブページのコアデータを抽出し、クリーンなMarkdownファイルを出力します。動的なウェブページ、PDFファイル、ソーシャル...
Cloudsquidは2023年にドイツ・ベルリンで設立された企業で、人工知能による文書処理の簡素化に注力している。主力製品はオンラインデータ抽出プラットフォームで、ユーザーはPDF、画像、音声、動画などをアップロードし、「名前と住所を調べる」など、抽出したいデータを指定するだけで、そのデータを抽出することができる。
PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースのツールです。oomol-labによって開発され、GitHubでホストされている。このツールはローカルのAIモデルで動作し、インターネット接続を必要としないため、プライバシーを保護し、操作を容易にします。
Supametas.AIは、ウェブページ、ドキュメント、オーディオ、ビデオの乱雑なデータを、AIが使用できる構造化データに整理することに特化したデータ処理プラットフォームである。ウェブリンク、API、ローカルファイルなど複数のソースからデータを収集し、JSONまたはMarkdown形式でエクスポートすることができる。このプラットフォームはプログラミングを必要としない。
トップに戻る