データ抽出

 ウェブサイトを投稿する

OneAIFW：ビッグモデルデータのプライバシーを保護する軽量オープンソース・ファイアウォール
OneAIFW（aifw）はFunstory.aiによって開発されたオープンソースツールで、大規模言語モデル（LLM）におけるデータプライバシーの問題に対処することを目的としている。現在の大規模モデルアプリケーションでは、ユーザが個人を特定できる情報（PII）や企業秘密を含むテキストをクラウドベースのモデル（ChatGPT、Claude...など）に送信する必要がしばしばあります。.
1.4 Kをとおして0表彰される
0ブックマークに登録
AutoForm：あらゆる文書からデータを抽出し、ウェブフォームに自動入力するAIツール
AutoFormは、人工知能技術を利用して、データのコピー＆ペーストの繰り返し作業からユーザーを解放するツールです。 PDF文書、スプレッドシート、電子メール、ウェブページ、さらには動画など、さまざまな形式の非構造化ファイルを読み取り、理解することができる「AIデータ入力エージェント」として機能します。 AutoFo...
1.7 Kをとおして0表彰される
0ブックマークに登録
OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへ
OCRmyPDFは、スキャンしたPDFファイルに光学式文字認識（OCR）テキストレイヤーを追加し、検索可能で再現可能なドキュメントにそれらを回すように設計されたオープンソースのコマンドラインツールです。これは、Pythonの開発に基づいており、Tesseract OCRエンジンを使用して、正確に画像内のテキストを識別し、PDFに埋め込むことができます。.
8.6 Kをとおして0表彰される
0ブックマークに登録
Docstrange: ドキュメントや画像からデータを抽出し、複数のフォーマットに変換するツール。
Docstrangeは、複数のフォーマットの文書や画像からデータを抽出し、Markdown、JSON、CSV、HTMLなどのフォーマットに変換することに重点を置いたオープンソースの文書処理ツールです。人工知能と高度なOCR技術を使用し、PDF、Word文書、Exce...
4.0 Kをとおして0表彰される
0ブックマークに登録
LangExtract: テキストから構造化データを抽出するオープンソースツール
LangExtractは、Googleが開発したオープンソースのPythonライブラリで、非構造化テキストから構造化データを抽出することに特化している。Google Geminiファミリーのような大規模な言語モデル（LLM）を使用し、正確な原文の位置やインタラクティブな視覚化機能と組み合わせることで、複雑なテキストを素早く構造化することができます。
4.3 Kをとおして0表彰される
0ブックマークに登録
Chat4Data：自然言語でウェブデータを抽出するAIツール
Chat4DataはAIベースのChrome拡張機能で、ウェブページのデータ抽出を簡素化することに重点を置いている。ユーザーがコードを書くことなく、自然言語対話を通じてウェブページ上の構造化データに簡単にアクセスできるようにします。ユーザーは、製品名、価格、連絡先情報など、必要なデータを簡単な言語で記述するだけで、Chat4Dat...
1.5 Kをとおして0表彰される
0ブックマークに登録
ytt-mcp: YouTube動画の字幕を取得・処理するサーバーツール
ytt-mcpはオープンソースのMCP（Model Context Protocol）サーバーツールで、YouTubeの動画から字幕を取り出し、処理するために特別に設計されています。cottongeeksチームによって開発され、GitHubでホストされているこのツールは、ユーザーが簡単なコマンドやAIツールで素早く動画の字幕を抽出できるように設計されています。.
2.0 Kをとおして0表彰される
0ブックマークに登録
WaterCrawl：ウェブコンテンツを大規模モデルで使用可能なデータに変換
WaterCrawlは、ユーザーがウェブページからデータを抽出し、大規模言語モデリング（LLM）処理に適したデータ形式に変換するために設計された、強力なオープンソースのウェブクローラツールです。Pythonの開発をベースに、Django、Scrapy、Celeryの技術を組み合わせ、効率的なウェブクローリングとデータ抽出をサポートしています。
2.5 Kをとおして1表彰される
0ブックマークに登録
Dolphin
DolphinはByteDanceによって開発されたオープンソースの文書画像解析ツールで、スキャンファイルやPDFファイルに含まれるテキスト、表、数式、画像などの複雑な文書画像の処理に焦点を当てています。効率的な構文解析を実現するために、2段階のプロセスを通して「解析後の最初の解析」アプローチを採用しています：まず、ドキュメントのページレイアウトを解析し、...
3.4 Kをとおして0表彰される
0ブックマークに登録
OneFileLLM: 複数のデータソースを単一のテキストファイルに統合
OneFileLLMは、複数のデータソースを単一のテキストファイルに統合し、大規模言語モデル（LLM）を簡単に入力できるように設計されたオープンソースのコマンドラインツールです。GitHubリポジトリ、ArXiv論文、YouTube動画トランスクリプト、ウェブコンテンツ、Sci-Hub論文、ローカルファイルの処理をサポートし、自動的に構造を生成します。
2.6 Kをとおして0表彰される
0ブックマークに登録
Chatlog: WeChatのチャットログを抽出・照会するオープンソースツール
Chatlogは、WeChatのローカルデータベースからチャットログを抽出してクエリすることに特化したオープンソースツールです。WeChatのバージョン3.xと4.0をサポートし、WindowsとmacOSシステムをカバーしています。ユーザーはコマンドライン、ターミナルインターフェース、HTTP APIから操作して、チャットログ、連絡先、グループチャット、...
1.1 Wをとおして0表彰される
0ブックマークに登録
DevDocs：技術文書を素早くクロールして整理するMCPサービス
DevDocsは、CyberAGIチームによって開発され、GitHubでホストされている完全に無料のオープンソースツールです。プログラマーやソフトウェア開発者のために設計されており、技術文書のURLから開始し、関連するページを自動的にクロールし、簡潔なMarkdownまたはJSONファイルに整理します。MCP ...
3.1 Kをとおして0表彰される
0ブックマークに登録
Workers AIに基づいて、無料で複数のファイルをMarkdown形式に変換する
serverless-markdown-convertorは、Cloudflare WorkerとWorkers AIをベースにした無料のオープンソースツールで、さまざまなファイルをMarkdown形式に変換します。PDF、画像、Officeドキュメント...
2.8 Kをとおして0表彰される
0ブックマークに登録
GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成
GPT-Crawlerは、BuilderIOチームによって開発され、GitHubでホストされているオープンソースツールです。1つ以上のウェブサイトのURLを入力することで、ページのコンテンツをクロールし、カスタムGPTまたはAIアシスタントを作成するために使用できる構造化ナレッジファイル（output.json）を生成します。ユーザー...
3.9 Kをとおして0表彰される
0ブックマークに登録
pure.md：URLの前に "pure.md/"を挿入して、きれいなテキストを取り出す。
pure.mdは、AIエージェントや開発者のために設計されたツールで、ウェブコンテンツやファイルを素早くMarkdown形式に変換することに重点を置いています。プロキシサービスによるクローラー対策制限を回避し、ウェブページのコアデータを抽出し、クリーンなMarkdownファイルを出力します。動的なウェブページ、PDFファイル、ソーシャルメディアコンテンツのいずれでも...
2.8 Kをとおして0表彰される
0ブックマークに登録
Cloudsquid: ドキュメントをアップロードし、構造化データのインテリジェントな抽出のための要件を記述する。
Cloudsquidは2023年にドイツ・ベルリンで設立された企業で、人工知能を活用して文書処理を簡素化することに注力している。主力製品はオンラインデータ抽出プラットフォームで、ユーザーはPDF、画像、音声、動画などをアップロードし、「名前と金額を調べる」など抽出したいデータを指定するだけで、AIが自動的に...
2.5 Kをとおして0表彰される
0ブックマークに登録
PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール
PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースのツールです。oomol-labによって開発され、電子書籍を整理するのが好きなユーザーのためにGitHubでホストされている。このツールはローカルのAIモデルで動作し、インターネット接続を必要としないため、プライバシーを保護し、操作を容易にします。このツールは...
3.9 Kをとおして0表彰される
0ブックマークに登録
Supametas.AI：非構造化データをLLMの高可用性データに抽出する
Supametas.AIは、ウェブページ、ドキュメント、オーディオ、ビデオの乱雑なデータを、AIが利用できる構造化データに整理することに特化したデータ処理プラットフォームである。ウェブリンク、API、ローカルファイルなど複数のソースからデータを収集し、JSONまたはMarkdown形式で出力する。このプラットフォームはプログラミングの経験を必要とせず、通常の...
2.8 Kをとおして0表彰される
0ブックマークに登録
MarkPDFDown: マルチモーダルモデルに基づくPDFからMarkdownへの変換
MarkPDFDownはオープンソースのツールです。マルチモーダルな大きな言語モデルを使ってPDFファイルをMarkdown形式に変換する。GitHubユーザーのjorben氏によって開発されたこのツールの目的はシンプルで、PDFドキュメントを編集・共有しやすくすることです。このツールは、見出し、リスト、...
3.3 Kをとおして0表彰される
0ブックマークに登録

データ抽出

クイック照会ステーションAIツール