
OneAIFW:ビッグモデルデータのプライバシーを保護する軽量オープンソース・ファイアウォール
OneAIFW(aifw)是由Funstory.ai开发的一款旨在解决大语言模型(LLM)数据隐私问题的开源工具。在当前的大模型应用中,用户经常需要将包含个人身份信息(PII)或商业机密的文本发送给云端模型(如ChatGPT、Claude等...

AutoForm:あらゆる文書からデータを抽出し、ウェブフォームに自動入力するAIツール
AutoForm是一个使用人工智能技术,旨在将用户从重复的数据复制和粘贴工作中解放出来的工具。 它的核心功能是作为一个“AI数据录入代理”,能够读取和理解多种格式的非结构化文件,例如PDF文档、电子表格、邮件、网页乃至视频等。 AutoFo...

OCRmyPDF: スキャンしたPDFをオープンソースツールの検索可能なテキストへ
OCRmyPDF 是一个开源的命令行工具,专门用于为扫描的PDF文件添加光学字符识别(OCR)文本层,使其变为可搜索、可复制的文档。它基于Python开发,使用Tesseract OCR引擎,能准确识别图像中的文字,并将其嵌入PDF中,保持...

Docstrange: ドキュメントや画像からデータを抽出し、複数のフォーマットに変換するツール。
Docstrangeは、複数のフォーマットの文書や画像からデータを抽出し、Markdown、JSON、CSV、HTMLなどのフォーマットに変換することに重点を置いたオープンソースの文書処理ツールです。人工知能と高度なOCR技術を使用し、PDF、Word文書、Exce...

LangExtract: テキストから構造化データを抽出するオープンソースツール
LangExtractは、Googleが開発したオープンソースのPythonライブラリで、非構造化テキストから構造化データを抽出することに特化している。Google Geminiファミリーのような大規模な言語モデル(LLM)を使用し、正確な原文の位置やインタラクティブな視覚化機能と組み合わせることで、複雑なテキストを素早く構造化することができます。

Chat4Data:自然言語でウェブデータを抽出するAIツール
Chat4Data 是一个基于人工智能的 Chrome 浏览器扩展工具,专注于简化网页数据提取。它通过自然语言对话让用户轻松获取网页上的结构化数据,无需编写代码。用户只需用简单的语言描述所需数据,如产品名称、价格或联系方式,Chat4Dat...

ytt-mcp: YouTube動画の字幕を取得・処理するサーバーツール
ytt-mcp是一个开源的MCP(模型上下文协议)服务器工具,专门用于从YouTube视频中获取字幕并进行处理。它由cottongeeks团队开发,托管在GitHub上,旨在帮助用户通过简单命令或AI工具快速提取视频字幕,并支持进一步的内容...
WaterCrawl:ウェブコンテンツを大規模モデルで使用可能なデータに変換
WaterCrawlは、ユーザーがウェブページからデータを抽出し、大規模言語モデリング(LLM)処理に適したデータ形式に変換するために設計された、強力なオープンソースのウェブクローラツールです。Pythonの開発をベースに、Django、Scrapy、Celeryの技術を組み合わせ、効率的なウェブクローリングとデータ抽出をサポートしています。

ドルフィン
Dolphin 是由 ByteDance 开发的一款开源文档图像解析工具,专注于处理复杂的文档图像,如包含文本、表格、公式和图片的扫描件或 PDF 文件。它采用“先分析后解析”的方法,通过两阶段处理实现高效解析:首先分析文档的页面布局,生成...

OneFileLLM: 複数のデータソースを単一のテキストファイルに統合
OneFileLLMは、複数のデータソースを単一のテキストファイルに統合し、大規模言語モデル(LLM)を簡単に入力できるように設計されたオープンソースのコマンドラインツールです。GitHubリポジトリ、ArXiv論文、YouTube動画トランスクリプト、ウェブコンテンツ、Sci-Hub論文、ローカルファイルの処理をサポートし、自動的に構造を生成します。

Chatlog: WeChatのチャットログを抽出・照会するオープンソースツール
Chatlogは、WeChatのローカルデータベースからチャットログを抽出してクエリすることに特化したオープンソースツールです。WeChatのバージョン3.xと4.0をサポートし、WindowsとmacOSシステムをカバーしています。ユーザーはコマンドライン、ターミナルインターフェース、HTTP APIから操作して、チャットログ、連絡先、グループチャット、...

DevDocs:技術文書を素早くクロールして整理するMCPサービス
DevDocsは、CyberAGIチームによって開発され、GitHubでホストされている完全に無料のオープンソースツールです。プログラマーやソフトウェア開発者のために設計されており、技術文書のURLから開始し、関連するページを自動的にクロールし、簡潔なMarkdownまたはJSONファイルに整理します。MCP ...

Workers AIに基づいて、無料で複数のファイルをMarkdown形式に変換する
serverless-markdown-convertorは、Cloudflare WorkerとWorkers AIをベースにした無料のオープンソースツールで、さまざまなファイルをMarkdown形式に変換します。PDF、画像、Officeドキュメント...

GPT-Crawler: ウェブサイトコンテンツを自動的にクロールして知識ベースドキュメントを生成
GPT-Crawlerは、BuilderIOチームによって開発され、GitHubでホストされているオープンソースツールです。1つ以上のウェブサイトのURLを入力することで、ページのコンテンツをクロールし、カスタムGPTまたはAIアシスタントを作成するために使用できる構造化ナレッジファイル(output.json)を生成します。ユーザー...

pure.md:URLの前に "pure.md/"を挿入して、きれいなテキストを取り出す。
pure.md 是一个为 AI 代理和开发者设计的工具,主打快速将网页内容或文件转为 Markdown 格式。它通过代理服务绕过反爬虫限制,提取网页核心数据,并输出简洁的 Markdown 文件。无论是动态网页、PDF 文件还是社交媒体内容...

Cloudsquid: ドキュメントをアップロードし、構造化データのインテリジェントな抽出のための要件を記述する。
Cloudsquid 是一家 2023 年成立于德国柏林的公司,专注于用人工智能简化文件处理。它的核心产品是一个在线数据提取平台,用户只需上传 PDF、图片、音频、视频等文件,简单说明需要提取的数据,比如“找出姓名和金额”,AI 就会自动完...

PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール
PDF Craft 是一个开源工具,专为扫描书籍的PDF设计,能将其转换为Markdown格式。它由 oomol-lab 开发,托管在 GitHub 上,适合喜欢整理电子书的用户。工具通过本地AI模型运行,无需联网,既保护隐私又方便操作。它...

Supametas.AI:非構造化データをLLMの高可用性データに抽出する
Supametas.AI 是一个数据处理平台,专门把网页、文档、音视频等杂乱信息整理成AI能用的结构化数据。它支持从多个来源收集数据,包括网页链接、API、本地文件等,然后输出为 JSON 或 Markdown 格式。平台无需编程经验,普通...

MarkPDFDown: マルチモーダルモデルに基づくPDFからMarkdownへの変換
MarkPDFDownはオープンソースのツールです。マルチモーダルな大きな言語モデルを使ってPDFファイルをMarkdown形式に変換する。GitHubユーザーのjorben氏によって開発されたこのツールの目的はシンプルで、PDFドキュメントを編集・共有しやすくすることです。このツールは、見出し、リスト、...
トップに戻る