ShortGPTは、映像コンテンツ制作を自動化するオープンソースの人工知能フレームワークです。 主な機能は、スクリプト作成、映像収集、音声合成、字幕生成、ビデオ編集など、ビデオ制作の全プロセスを効率化することである。 このフレームワークは、大規模言語モデリング(LLM)により編集コマンドを理解して実行し、インターネットから画像やビデオクリップを自動的に検索し、類似したビデオクリップを統合することができます。 イレブンラボ やMicrosoft EdgeTTSの技術を使って自然な音声のナレーションを生成することができる。 ShortGPTは、コンテンツ制作者、特にYouTubeやTikTokのようなプラットフォームで自動チャンネルを運営している人たちが、迅速かつ効率的に大量の動画を制作できるように設計されている。 短い動画と長い動画用に設計された異なる作業エンジンを提供するほか、既存の動画の翻訳とダビングに特化した機能モジュールも備えている。
機能一覧
- 自動編集フレームワークラージ・ランゲージ・モデル(LLM)を指向したビデオ編集言語により、ビデオ制作プロセスを効率化します。
- 多言語吹替ElevenLabsおよびMicrosoft EdgeTTSとの統合により、30以上の言語の音声合成をサポートし、自然なナレーションを生成します。
- オンライン教材アクセスPexelsのようなサイトからビデオ映像を自動的に取得したり、Bing Imagesから画像を検索して、ビデオコンテンツのビジュアル素材を提供することができる。
- 字幕の自動生成:: 制作されたビデオに自動的に字幕を生成し、追加します。
- ビデオの翻訳と吹き替え翻訳エンジンは、ビデオの内容を(ファイルまたはYouTubeのリンクを介して)書き起こし、翻訳し、ターゲット言語で再ダビングし、最終的にビデオの完全に新しい多言語バージョンを生成します。
- スクリプトとキューフレームワークには、さまざまな自動ビデオ編集タスクに直接使用できる、幅広い組み込みスクリプトとキューがあります。
- カスタマイズ・オプション例えば、吹き替えの言語を選んだり、ビデオに独自の透かしを入れたりすることができます。
- データの永続性TinyDBを使用することで、自動編集プロセスで使用された変数や設定が長期にわたって保存されます。
ヘルプの使用
ShortGPTは強力なAI動画自動化フレームワークで、Google Colab上で動作させる方法と、Docker環境でローカルに動作させる方法の主に2つの方法で使用することができます。Google Colabは、初心者や自分のコンピュータに複雑な環境を設定したくないユーザーに公式に推奨されています。
方法1:Google Colabを使う(推奨)
これは、ローカルに依存関係をインストールすることなく、最も簡単で速い方法だ。
- Colabノートブックを開く。まず、Googleアカウントが必要です。その後、Google Colabの公式リンクに直接アクセスしてください:
https://colab.research.google.com/drive/1_2UKdpFqxCqWaAcZb3rwMVQqtbisdE?usp=sharing
. - コードユニットの逐次実行ページを開くと、一連のコードセルが表示されます。各セルを上から下へ順番に見ていくだけです。各セルの左にある「再生」ボタンをクリックするか、セルを選択してショートカットキー
Shift+Enter
を実行する。 - APIキーの設定実行中に、OpenAIやElevenLabsなどのAPIキーの入力を求められます。事前にこれらのサービスのアカウントを登録してキーを取得し、対応する入力ボックスに入力してください。
- ウェブインターフェースの起動すべてのセルが正常に実行されると、Gradio インターフェースへの公開リンクが生成されます。このリンクをクリックすると、ShortGPTのGUIをブラウザで使用することができます。
方法2:Dockerを使ってローカルで実行する
ShortGPTを自分のコンピュータ上でより高いレベルでコントロールしながら実行したい場合は、Dockerを使用することができます。このアプローチでは、コマンドラインとDockerの基本的な理解が必要です。
- DockerのインストールDockerのウェブサイトから、お使いのオペレーティングシステム(Windows、macOS、Linux)に対応したバージョンをダウンロードし、インストールを完了します。
- ShortGPTプロジェクトファイルのダウンロード:
- コマンドラインツール(ターミナル)を開く。
- gitを使ってプロジェクトのリポジトリをクローンする:
git clone https://github.com/RayVentura/ShortGPT.git
- プロジェクト・カタログにアクセスする:
cd ShortGPT
- 環境変数の設定:
- プロジェクトのルート・ディレクトリーにある
.env.example
文書の - このファイルのコピーを作成し、名前を変更する。
.env
. - 見せる
.env
ファイルに、自分のAPIキーを記入する。OPENAI_API_KEY
歌で応えるELEVENLABS_API_KEY
.
- プロジェクトのルート・ディレクトリーにある
- Dockerコンテナの構築と実行:
- プロジェクトのルート・ディレクトリで、以下のコマンドを実行してDockerイメージをビルドする。このプロセスは、すべての依存関係をダウンロードしてインストールする必要があるため、時間がかかる場合があります。
docker build -t short_gpt_docker:latest .
- ビルドが完了したら、以下のコマンドでコンテナを実行する:
docker run -p 31415:31415 --env-file .env short_gpt_docker:latest
- プロジェクトのルート・ディレクトリで、以下のコマンドを実行してDockerイメージをビルドする。このプロセスは、すべての依存関係をダウンロードしてインストールする必要があるため、時間がかかる場合があります。
- ウェブインターフェースへのアクセスコンテナが正常に実行されたら、ブラウザーを開いて
http://localhost:31415
.Colabバージョンと同じGradioインターフェイスが表示され、ビデオ作成を開始することができます。
コア機能の動作フロー
ShortGPTでは、さまざまなビデオ作成作業を3つの主要エンジンに分けています:
ContentShortEngine
(ショートビデオエンジン)YouTubeショートムービーやTikTokスタイルのショートムービーを作成するために設計されています。トピックやスクリプトを受け取る→ナレーション音声を生成する→マッチする背景ビデオクリップや画像を自動的に検索する→映像と音声を短いビデオに合成する→自動的に字幕を追加する→最後にビデオのタイトルや説明などのメタデータを生成する。ContentVideoEngine
(長いビデオエンジン):: 標準的な長さのビデオを作成するために使用されます。ショートビデオエンジンと似たようなプロセスですが、より長いスクリプトを扱い、より長いオーディオを生成し、より長いタイムライン上でビデオ映像と字幕を揃えることに重点を置いています。ContentTranslationEngine
(ビデオ翻訳エンジン)これは特別な機能です。既存のビデオファイルやYouTubeのリンクを提供すると、自動的にビデオ内の音声コンテンツを認識し、テキストに変換し、テキストを選択したターゲット言語に翻訳し、その言語で新しい吹き替えを合成し、最後に新しい吹き替えと翻訳された字幕を含むビデオのバージョンを生成します。
ウェブインターフェイスでは、ニーズに応じて使用するエンジンを選択し、プロンプトに従って適切な情報(ビデオのテーマ、言語、ダビングスタイルなど)を入力し、タスクを開始してAIがビデオを仕上げるのを待つことができます。
アプリケーションシナリオ
- ソーシャルメディア・コンテンツの自動化
YouTube Shorts、TikTok、Instagram Reelsなどのプラットフォームで継続的に短い動画を公開する必要があるユーザーは、ShortGPTを使ってテーマを設定し、スクリプト生成、素材収集、ダビング、編集の全プロセスを自動化させてコンテンツ制作を自動化することで、時間と人手を大幅に節約できる。 - 多言語コンテンツ配信
動画クリエイターがコンテンツを様々な言語にプロモーションしたい場合、ContentTranslationEngineを使用することができます。オリジナルビデオへのリンクを提供するだけで、ShortGPTが自動的にスペイン語、フランス語、日本語などの多言語でビデオを生成し、適切な吹き替えと字幕を付けて、視聴者を迅速に拡大します。 - 情報満載のビデオを素早く作成
大量の知識説明、製品紹介、ニュース放送ビデオの制作を必要とするシナリオでは、制作者はトランスクリプトのみを提供し、ShortGPTを使用してビジュアル素材と自動的にマッチングさせ、ナレーションを生成することで、テキストコンテンツを情報豊富なビデオに素早く変換することができます。 - ビデオコンテンツのローカライズ
企業や教育機関は、グローバルなプロモーションを行う際に、トレーニング教材やプロモーションビデオをローカライズする必要がよくありますが、ShortGPTは、これらのビデオ教材をターゲット市場の言語に翻訳して合わせる効率的なツールとして使用でき、ローカライズのコストと複雑さを軽減します。
品質保証
- ShortGPTは無料ですか?
ShortGPT自体はオープンソースのフレームワークなので、ソフトウェアの利用は無料です。 ただし、スクリプト生成にはOpenAI(GPTモデル)、音声合成にはElevenLabsなど、動作中にサードパーティ製のAPIサービスを呼び出す必要があり、有償となる場合がある。ただし、マイクロソフトの無料音声サービス「EdgeTTS」の利用にも対応している。 - ShortGPTを使うのにプログラミングは必要ですか?
そうとは限らない。公式に推奨されているGoogle Colabの方法を使えば、基本的にコードを書く必要はなく、順番に実行をクリックし、必要な情報を入力するだけでいい。 Dockerを使ってローカルにインストールする場合は、コマンドライン操作の基本的な知識が必要になる。 - ShortGPTはどの言語をサポートしていますか?
非常に幅広い言語をサポートしています。ElevenLabsやEdgeTTSなどの音声合成サービスを利用して、ShortGPTは、英語、スペイン語、フランス語、ドイツ語、中国語、日本語、韓国語、ヒンディー語など、30以上の言語のナレーションやコンテンツ作成をサポートしています。 - 生成されたビデオ映像に著作権の問題はありますか?
ShortGPTは、主にPexelsのような無料の映像を提供するウェブサイトから映像や画像を入手しています。これらのプラットフォーム上のコンテンツは通常、営利・非営利を問わず使用することができますが、潜在的な著作権リスクを避けるため、使用前に各自で特定の映像のライセンス契約を確認することをお勧めします。