複数のデータソースからLLMの入力データを手作業で照合するという面倒な問題を解決するには？

2025-08-24

1.2 K

直接リンクモバイルビュー

OneFileLLMによる複数ソースの一括統合

従来のLLMの入力準備は、GitHubのコード、論文のPDF、ビデオのトランスクリプトなど、異種のデータを手作業で収集する必要があり、時間がかかり、エラーも発生しやすい。以下に具体的な解決策を示す：

自動クロールGitHub リポジトリの URL をコマンドラインから直接入力してください。https://github.com/jimmc414/onefilellm)、ツールはリポジトリの .py/.md ファイルを自動的かつ再帰的にクロールします。
クロスプラットフォーム分析arXiv論文の分析（例https://arxiv.org/abs/2401.14295)は自動的にPDFをダウンロードし、テキスト、YouTubeリンク(例えばhttps://www.youtube.com/watch?v=KZ_NlnmPQYkトランスクリプトの自動取得
構造化出力すべてのコンテンツはXML形式で自動的にカプセル化され、3つの標準化されたファイルが生成されます：
- uncompressed_output.txt(原文ママ）
- compressed_output.txt(前処理済みテキスト）
- processed_urls.txt(送信元アドレス記録）

インストール後にpython onefilellm.py --web技術者でなくても簡単に操作できるビジュアルインターフェイスを発表。