海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

ドキュメントの抽出とクリーニング

 ウェブサイトを投稿する

AutoForm：あらゆる文書からデータを抽出し、ウェブフォームに自動入力するAIツール
AutoFormは、人工知能技術を利用して、データのコピー＆ペーストの繰り返し作業からユーザーを解放するツールです。 PDF文書、スプレッドシート、電子メール、ウェブページ、さらには動画など、さまざまな形式の非構造化ファイルを読み取り、理解することができる「AIデータ入力エージェント」として機能します。 AutoFo...
08-22 1.6 K0表彰される
OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへ
OCRmyPDFは、スキャンしたPDFファイルに光学式文字認識（OCR）テキストレイヤーを追加し、検索可能で再現可能なドキュメントにそれらを回すように設計されたオープンソースのコマンドラインツールです。これは、Pythonの開発に基づいており、Tesseract OCRエンジンを使用して、正確に画像内のテキストを識別し、PDFに埋め込むことができます。.
08-04 8.0 K0表彰される
Docstrange: ドキュメントや画像からデータを抽出し、複数のフォーマットに変換するツール。
Docstrangeは、複数のフォーマットの文書や画像からデータを抽出し、Markdown、JSON、CSV、HTMLなどのフォーマットに変換することに重点を置いたオープンソースの文書処理ツールです。人工知能と高度なOCR技術を使用し、PDF、Word文書、Exce...
08-04 3.7 K0表彰される
LangExtract: テキストから構造化データを抽出するオープンソースツール
LangExtractは、Googleが開発したオープンソースのPythonライブラリで、非構造化テキストから構造化データを抽出することに特化している。Google Geminiファミリーのような大規模な言語モデル（LLM）を使用し、正確な原文の位置やインタラクティブな視覚化機能と組み合わせることで、複雑なテキストを素早く構造化することができます。
07-31 4.1 K0表彰される
MD-TOOL: フリーのMarkdownオンライン変換ツール
MD-TOOLは、Markdownフォーマットと他のファイルフォーマット間の変換サービスに特化した無料のオンラインツールセットサイトです。このサイトの主な特徴は、MarkdownテキストからHTMLコードへのリアルタイム変換、HTMLコードからMarkdownテキストへの変換、Markdownドキュメントから...
07-28 1.4 K0表彰される
OCRFlux: PDFや画像をMarkdownに変換する軽量ツール
OCRFluxは、PDFファイルや画像をクリアなMarkdownフォーマットに変換することに特化した、オープンソースの軽量ツールです。ChatDOCチームによって開発され、3Bのパラメータを持つ大規模なマルチモーダルモデル上に構築され、GTX 3090のような一般的なハードウェア上で実行することができます。このツールは、複雑なドキュメント・レイアウトの扱いに優れています。
07-22 2.6 K0表彰される
ytt-mcp: YouTube動画の字幕を取得・処理するサーバーツール
ytt-mcpはオープンソースのMCP（Model Context Protocol）サーバーツールで、YouTubeの動画から字幕を取り出し、処理するために特別に設計されています。cottongeeksチームによって開発され、GitHubでホストされているこのツールは、ユーザーが簡単なコマンドやAIツールで素早く動画の字幕を抽出できるように設計されています。.
07-22 1.8 K0表彰される
WaterCrawl：ウェブコンテンツを大規模モデルで使用可能なデータに変換
WaterCrawlは、ユーザーがウェブページからデータを抽出し、大規模言語モデリング（LLM）処理に適したデータ形式に変換するために設計された、強力なオープンソースのウェブクローラツールです。Pythonの開発をベースに、Django、Scrapy、Celeryの技術を組み合わせ、効率的なウェブクローリングとデータ抽出をサポートしています。
07-18 2.3 K1表彰される
OneFileLLM: 複数のデータソースを単一のテキストファイルに統合
OneFileLLMは、複数のデータソースを単一のテキストファイルに統合し、大規模言語モデル（LLM）を簡単に入力できるように設計されたオープンソースのコマンドラインツールです。GitHubリポジトリ、ArXiv論文、YouTube動画トランスクリプト、ウェブコンテンツ、Sci-Hub論文、ローカルファイルの処理をサポートし、自動的に構造を生成します。
04-18 2.4 K0表彰される
Chatlog: WeChatのチャットログを抽出・照会するオープンソースツール
Chatlogは、WeChatのローカルデータベースからチャットログを抽出してクエリすることに特化したオープンソースツールです。WeChatのバージョン3.xと4.0をサポートし、WindowsとmacOSシステムをカバーしています。ユーザーはコマンドライン、ターミナルインターフェース、HTTP APIから操作して、チャットログ、連絡先、グループチャット、...
04-12 1.0 W0表彰される
VOP: 複雑な図や数式を抽出するOCRツール
Versatile OCR Programは、複雑な学術・教育文書を処理するために設計されたオープンソースの光学式文字認識（OCR）ツールです。PDF、画像、その他の文書からテキスト、表、数式、図、回路図を抽出し、機械学習の学習に適した構造化データを生成することができます。英語、中国語、韓国語を含む多言語をサポートします。.
04-12 2.7 K0表彰される
DevDocs：技術文書を素早くクロールして整理するMCPサービス
DevDocsは、CyberAGIチームによって開発され、GitHubでホストされている完全に無料のオープンソースツールです。プログラマーやソフトウェア開発者のために設計されており、技術文書のURLから開始し、関連するページを自動的にクロールし、簡潔なMarkdownまたはJSONファイルに整理します。MCP ...
04-09 2.9 K0表彰される
PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。
それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します：ビジュアルモデル（Vision Grid Transfor...
04-09 3.2 K0表彰される
Workers AIに基づいて、無料で複数のファイルをMarkdown形式に変換する
serverless-markdown-convertorは、Cloudflare WorkerとWorkers AIをベースにした無料のオープンソースツールで、さまざまなファイルをMarkdown形式に変換します。PDF、画像、Officeドキュメント...
03-30 2.6 K0表彰される
GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成
GPT-Crawlerは、BuilderIOチームによって開発され、GitHubでホストされているオープンソースツールです。1つ以上のウェブサイトのURLを入力することで、ページのコンテンツをクロールし、カスタムGPTまたはAIアシスタントを作成するために使用できる構造化ナレッジファイル（output.json）を生成します。ユーザー...
03-29 3.7 K0表彰される
pure.md：URLの前に "pure.md/"を挿入して、きれいなテキストを取り出す。
pure.mdは、AIエージェントや開発者のために設計されたツールで、ウェブコンテンツやファイルを素早くMarkdown形式に変換することに重点を置いています。プロキシサービスによるクローラー対策制限を回避し、ウェブページのコアデータを抽出し、クリーンなMarkdownファイルを出力します。動的なウェブページ、PDFファイル、ソーシャルメディアコンテンツのいずれでも...
03-25 2.7 K0表彰される
Cloudsquid: ドキュメントをアップロードし、構造化データのインテリジェントな抽出のための要件を記述する。
Cloudsquidは2023年にドイツ・ベルリンで設立された企業で、人工知能を活用して文書処理を簡素化することに注力している。主力製品はオンラインデータ抽出プラットフォームで、ユーザーはPDF、画像、音声、動画などをアップロードし、「名前と金額を調べる」など抽出したいデータを指定するだけで、AIが自動的に...
03-25 2.3 K0表彰される
PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール
PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースのツールです。oomol-labによって開発され、電子書籍を整理するのが好きなユーザーのためにGitHubでホストされている。このツールはローカルのAIモデルで動作し、インターネット接続を必要としないため、プライバシーを保護し、操作を容易にします。このツールは...
03-24 3.7 K0表彰される
Supametas.AI：非構造化データをLLMの高可用性データに抽出する
Supametas.AIは、ウェブページ、ドキュメント、オーディオ、ビデオの乱雑なデータを、AIが利用できる構造化データに整理することに特化したデータ処理プラットフォームである。ウェブリンク、API、ローカルファイルなど複数のソースからデータを収集し、JSONまたはMarkdown形式で出力する。このプラットフォームはプログラミングの経験を必要とせず、通常の...
03-24 2.6 K0表彰される