
SmolDocling:少量で効率的な文書処理のための視覚言語モデル
SmolDoclingは、ds4sdチームがIBMと共同で開発した視覚言語モデル(VLM)で、SmolVLM-256Mをベースにしており、Hugging Faceプラットフォームでホストされています。SmolDoclingは、わずか256Mのパラメータを持つ世界最小のVLMで、そのコア機能は...

フライング・パドル PP-TableMagic: 複雑なテーブルの構造化情報抽出
表認識の目的は、画像中の表を解析し、表の構造やセルの位置を正確に識別し、構造化された表形式(HTMLなど)に変換することである。今日の情報化時代において、大量の重要な表データが、いまだに構造化されていない状態で存在している(例えば、スキャンした文書に含まれる統計表の写真、PDFの財務報告書に含まれる統計表など)。.

ミストラルOCR:94.89%総合精度、1000ページ/30秒、わずか1ドル
人類文明の長い歴史の中で、情報の取得・分析方法が飛躍的に進歩するたびに、社会の進歩に大きく貢献してきた。古代の象形文字から、持ち運び可能なパピルス、その後の印刷機の出現、そして今日のデジタルの波に至るまで、技術革新のひとつひとつが人類の知識の普及範囲と応用の深さを大きく広げ、それがまた新たな技術革新の温床となってきた...。.

Firecrawl MCPサーバー: FirecrawlベースのWebクローラーMCPサービス
Firecrawl MCP Serverは、MendableAIによって開発されたオープンソースツールで、モデルコンテキストプロトコル(MCP)プロトコル実装に基づき、Firecrawl APIと統合され、強力なウェブクローリングとデータ抽出を提供します。このツールは、...

par_scrape: ウェブデータをインテリジェントに抽出するクローラーツール
par_scrapeはPythonベースのオープンソースWebクローラーツールで、開発者のPaul RobelloによってGitHubで公開された。SeleniumとPlaywrightという2つの強力なブラウザ自動化ツールを統合している。

PDF-Extract-Kit:オープンソースツールのPDFコンテンツの複雑な構造を抽出する
PDF-Extract-Kitは、OpenDataLabチームによって開発されたオープンソースプロジェクトで、複雑で多様なPDF文書から高品質のコンテンツを効率的に抽出することに焦点を当てています。高度な文書解析技術、レイアウト検出、数式認識、表抽出、OCRなどの機能を統合しており、学術論文や研究論文に適しています。.

Crawl4LLM:LLM事前学習のための効率的なウェブクローリングツール
Crawl4LLMは清華大学とカーネギーメロン大学が共同で開発したオープンソースプロジェクトで、大規模モデル(LLM)の事前学習のためのウェブクローリングの効率最適化に焦点を当てている。高品質なウェブページデータをインテリジェントに選択することで、非効率なクロールを大幅に削減し、事前学習効果を維持しながら、本来クロールが必要な100のウェブページの作業量を21まで減らすことができるとしています...

Markdownify MCP Server: MCPプロトコルに基づき、様々なコンテンツをMarkdownフォーマットに変換します。
Markdownify MCP Serverは、モデルコンテキストプロトコルに基づいたオープンソースツールで、GitHubでホストされており、開発者のZach Caceresによって作成されました。複数のファイルタイプ(例:PDF、画像、オーディオ...

CodeWeaver: コード構造とコンテンツから自動的にMarkdownドキュメントを生成します。
CodeWeaverは、コードベースを単一の、簡単に操作できるMarkdownドキュメントに編むために設計されたコマンドラインツールです。ディレクトリを再帰的にスキャンし、各ファイルの内容をコードブロックに埋め込むことで、プロジェクトのファイル階層を構造化した表現を生成します。このツールは、コードベースの共有と情報抽出の簡素化を目標に設計されており、特に...

Kreuzberg: あらゆる文書からテキストを抽出するオープンソースツール
Kreuzbergは、PDFファイルからのテキスト抽出を簡素化するためのライブラリで、シンプルで手間のかからないテキスト抽出ソリューションを提供するように設計されています。このライブラリは、テキスト抽出を必要とするRAG(Retrieval-Augmented Generation)サービスに特に適しています。Kreuzbergは、ローカル操作、簡単な制御をサポートしています。.

講師:大規模言語モデルの構造化出力ワークフローを簡素化するPythonライブラリ
Instructorは、大規模言語モデル(LLM)からの構造化出力を処理するために設計された人気のPythonライブラリです。Pydanticをベースに構築されており、データの検証、再試行、応答のストリーミングを管理するための、シンプルで透過的、そしてユーザーフレンドリーなAPIを提供します。.

zChunk: Llama-70Bに基づく一般的な意味的チャンキング戦略
zChunkは、ZeroEntropyが開発した新しいチャンキング戦略で、一般的なセマンティック・チャンキングのソリューションを提供します。このストラテジーはLlama-70Bモデルに基づいており、チャンクの生成を促すことでドキュメントのチャンキングプロセスを最適化し、情報検索時に高いS/N比を維持することを保証します。zChunkは特に、高精度の検索を必要とするRAに適しています。.

パルス:文書処理とデータ抽出のためのビジネスソリューション
Pulseは、文書処理とデータ抽出に特化したインテリジェントなプラットフォームで、企業や開発者がさまざまな複雑な文書を効率的に解析・処理できるように設計されています。高度なコンピュータビジョンとマルチモーダル処理技術により、Pulse は、テキスト、画像、表など、さまざまな形式のドキュメントから構造化データを正確に抽出することができます。このプラットフォームは、さまざまな業界のアプリケーションをサポートしています...

ロウフィル:文書からの構造化情報の一括抽出と自動分析
Rowfillは、ナレッジワーカーのために設計されたオープンソースの文書処理プラットフォームです。Rowfillは、高度なAI技術を使用して、複雑な文書、画像、PDFからデータを抽出、分析、処理します。Rowfillは、データのプライバシーとセキュリティを確保するために、ネイティブの大規模言語モデル(LLM)とOpenAIの視覚モデルをサポートしています。このプラットフォームは、高い...

PPTX2MD: PPTXファイルをMarkdownに変換する特別なツール
PPTX2MDは、PowerPoint PPTXファイルをMarkdown形式に変換するために設計されたオープンソースツールです。GitHubユーザのssine氏によって開発されたこのツールは、見出し、リスト、テキストフォーマット(太字、斜体、色、ハイパーリンクなど)、画像、表などのフォーマットを保持することをサポートしています。.

Repomix:大規模モデル検索用にコードベースをテキストファイルにパッケージ化
Repomix(以前はRepopackとして知られていた)は、コードベース全体を単一のAIフレンドリーなファイルにパッケージ化するために設計されたオープンソースツールである。このツールにより、開発者は自分のコードベースをClaude、ChatGPT、Geminiのような大規模な言語モデルによる解析や処理に簡単に利用できるようにすることができる。もともとは...

Yek: git リポジトリのテキストファイルを読み込んで、大規模なモデルのために素早くチャンキングする。
Yekは、リポジトリやディレクトリからテキストファイルを読み込んでチャンキングし、大規模言語モデル(LLM)で使用するためにシリアライズするRustベースの高速ツールです。このツールは、デフォルトで.gitignoreルールを使って不要なファイルをスキップし、Gitの履歴を使って重要なファイルを推測します。Yekは、“... "の近似値に基づいてファイルを読み込むことができます。.

LlamaParse: Llamaindexによる高品質な文書解析とデータ抽出サービス(1日1000ページ無料)。
LlamaParseは、PDF、PowerPoint、Word文書、スプレッドシートなどの複雑な文書を処理し、構造化データに変換することができる強力な文書解析ツールです。LlamaParseは、スタンドアロンのREST API、Pythonパッケージ、t...

UnDatas.IO: さまざまな種類の非構造化データを正確に解析するAPIサービス(有料)
UnDatas.IOは、非構造化データの解析と処理に特化したプラットフォームです。高度な技術を駆使して、ドキュメントのレイアウトを自動的に識別し、表、画像、数式、テキストを分類することで、データ処理プロセスを大幅に簡素化します。このプラットフォームは、データ整理の時間を大幅に節約するだけでなく、ユーザーがデータから貴重な洞察を引き出し、より多くの戦争ができるよう支援する。.
トップに戻る