Auto-Audio-Bookは、開発者zqq-nuliによって作成され、GitHubプラットフォーム上でホストされているPython 3.10+のオープンソースプロジェクトです。このツールは、大規模なモデル技術(GeminiやCosyVoice2-0.5Bなど)の統合を通じて、ネットワークから小説コンテンツをクロールして多キャラクターのオーディオブックを生成するまでの完全なプロセスを実現します。プロジェクトのコードは完全に公開されており、ユーザーは自由にダウンロードして変更することができるため、技術愛好家やオーディオブック制作者に特に適しています。
コア・アーキテクチャには5つの主要なテクノロジー・モジュールが含まれている。1) リクエスト・ライブラリに基づくウェブ・クローラー・システム、2) NLPテクノロジーを用いた対話分析エンジン、3) マルチロール音声合成インターフェース、4) ffmpegに基づく音声処理システム、5) オプションのMongoDBデータベース・サポート。このモジュール設計により、プロジェクトの拡張性が高く、開発者は簡単にコンポーネントを入れ替えることができる。
2025年3月の最新バージョン(0.5B)時点では、プロジェクトはまだ開発段階にあり、GUIはまだ完成していないが、コマンドライン経由でクロールから生成までのワークフロー全体を完了させることが可能である。典型的な実行環境は、Python 3.10+、ffmpegオーディオツール、適切なBig Model APIキーが必要で、プロジェクトのドキュメントで指定されている。
この答えは記事から得たものである。小説を自動的にクロールし、多文字のオーディオブックを生成するツールについて































