海外からのアクセス:www.kdjingpai.com
Ctrl + D このサイトをブックマークする

ARC-Hunyuan-Video-7Bは、テンセントのARC Labによって開発されたオープンソースのマルチモーダルモデルで、ユーザーが作成した短い動画コンテンツの理解に焦点を当てている。動画から視覚、音声、テキスト情報を統合することで、綿密な構造分析を提供する。このモデルは、複雑な視覚要素、高密度の音声情報、テンポの速い短い動画を扱うことができ、動画検索、コンテンツ推薦、動画要約などのシナリオに適している。モデルは7Bのパラメータでスケーリングされ、効率的な推論と高品質の出力を保証するために、事前学習、命令の微調整、強化学習を含む複数の段階で学習されます。ユーザーはGitHubを通じてコードとモデルの重みにアクセスすることができ、本番環境に簡単に導入することができる。

 

機能一覧

  • ビデオの内容理解:短いビデオの映像、音声、テキストを分析し、核心的な情報や感情表現を抽出する。
  • タイムスタンプ注釈:サポート多粒度タイムスタンプビデオ説明、イベントの時間の正確な注釈。
  • ビデオクイズ:ビデオの内容に関する自由形式の質問に答え、ビデオの中の複雑なシナリオを理解する。
  • タイムロケーション:ビデオ内の特定のイベントやクリップを検索し、ビデオの検索と編集をサポートします。
  • ビデオの要約:ビデオの内容を簡潔に要約し、重要な情報を強調します。
  • 多言語サポート:中国語と英語のビデオコンテンツ分析をサポートし、中国語のビデオ処理に特別に最適化されています。
  • 効率的な推論:vLLMアクセラレーションをサポートし、1分間のビデオ推論をわずか10秒で完了。

ヘルプの使用

設置プロセス

ARC-Hunyuan-Video-7Bを使用するには、GitHubリポジトリをクローンし、環境を設定する必要があります。以下はその詳細な手順である:

  1. クローン倉庫::
    git lfs install
    git clone https://github.com/TencentARC/ARC-Hunyuan-Video-7B
    cd ARC-Hunyuan-Video-7B
    
  2. 依存関係のインストール::
    Python 3.8+とPyTorch 2.1.0+(CUDA12.1サポート)がシステムにインストールされていることを確認します。以下のコマンドを実行して、必要なライブラリをインストールします:

    pip install -r requirements.txt
    
  3. モデルウェイトのダウンロード::
    モデルウェイトはHugging Faceでホストされている。ユーザーは以下のコマンドでダウンロードできる:

    from huggingface_hub import hf_hub_download
    hf_hub_download(repo_id="TencentARC/ARC-Hunyuan-Video-7B", filename="model_weights.bin", repo_type="model")
    

    または、Hugging Faceから直接手動でダウンロードし、それを experiments/pretrained_models/ カタログ

  4. vLLMのインストール(オプション)::
    推論を加速するために、vLLMをインストールすることをお勧めします:

    pip install vllm
    
  5. 検証環境::
    リポジトリが提供するテストスクリプトを実行して、環境が正しく設定されていることを確認します:

    python test_setup.py
    

使用方法

ARC-Hunyuan-Video-7Bはローカル操作とオンラインAPIコールをサポートする。以下は主な機能操作の流れである:

1.映像コンテンツの理解

ユーザーは短い動画ファイル(MP4形式など)を入力することができ、モデルは動画のビジュアル、オーディオ、テキストコンテンツを分析し、構造化された説明を出力します。例えば、TikTokの面白いビデオを入力すると、モデルはビデオ内のアクション、ダイアログ、BGMを抽出し、イベントの詳細な説明を生成することができます。

手続き::

  • ビデオファイルを準備する data/input/ カタログ
  • 推論スクリプトを実行する:
    python inference.py --video_path data/input/sample.mp4 --task content_understanding
    
  • 出力は output/ JSON 形式のカタログで、動画コンテンツの詳細な説明を含む。

2.タイムスタンプのラベリング

このモデルは、動画のタイムスタンプ付き説明文の生成をサポートしており、ビデオクリップや検索など、イベントの正確な位置特定を必要とするアプリケーションに適しています。

手続き::

  • タイムスタンプ注釈を実行するには、以下のコマンドを使用します:
    python inference.py --video_path data/input/sample.mp4 --task timestamp_captioning
    
  • 出力例:
    [
    {"start_time": "00:01", "end_time": "00:03", "description": "人物A进入画面,微笑挥手"},
    {"start_time": "00:04", "end_time": "00:06", "description": "背景音乐响起,人物A开始跳舞"}
    ]
    

3.ビデオクイズ

ユーザーはビデオについて自由形式の質問をすることができ、モデルは映像情報と音声情報を組み合わせてそれに答える。例えば、"登場人物はビデオの中で何をしているのか?"あるいは、"映像はどのような感情を表現していますか?"

手続き::

  • 課題ファイルの作成 questions.jsonフォーマットは以下の通り:
    [
    {"video": "sample.mp4", "question": "视频中的主要活动是什么?"}
    ]
    
  • クイズスクリプトを実行する:
    python inference.py --question_file questions.json --task video_qa
    
  • 出力はJSON形式で、質問に対する答えが含まれています。

4.時間志向

タイムロケーター機能を使えば、ビデオ内の特定のイベントのクリップを探すことができます。例えば、「人々が踊っている」クリップを検索します。

手続き::

  • ポジショニングスクリプトを実行する:
    python inference.py --video_path data/input/sample.mp4 --task temporal_grounding --query "人物跳舞"
    
  • などの時間帯で出力される。 00:04-00:06.

5.ビデオ・サマリー

このモデルは、ビデオの内容を簡潔に要約し、核となるメッセージを強調する。

手続き::

  • 要約スクリプトを実行する:
    python inference.py --video_path data/input/sample.mp4 --task summarization
    
  • 出力例:
    视频展示了一位人物在公园跳舞,背景音乐欢快,传递了轻松愉快的情绪。
    

6.オンラインAPIの使用

テンセント・アークは、ハギング・フェイスや公式デモからアクセスできるオンラインAPIを提供している。デモページにアクセスし、ビデオをアップロードしたり、質問を入力すると、モデルがリアルタイムで結果を返します。

手続き::

  • Hugging FaceのARC-Hunyuan-Video-7Bデモページをご覧ください。
  • ビデオファイルのアップロードやタイピングに問題がある。
  • 出力結果を表示し、JSON形式での分析データのダウンロードをサポート。

ほら

  • ビデオ解像度オンラインデモは圧縮解像度を使用しているため、パフォーマンスに影響を与える可能性があります。最良の結果を得るためには、ローカルで実行することをお勧めします。
  • ハードウェア要件推論速度を確保するため、NVIDIA H20以上のGPUを推奨します。
  • 言語サポートこのモデルは中国語の動画に対してより最適化されており、英語の動画に対しては若干パフォーマンスが低下している。

アプリケーションシナリオ

  1. ビデオ検索
    ユーザーは、動画プラットフォーム上で「料理のチュートリアル」や「面白いクリップ」といったキーワードで、動画内の特定のイベントやコンテンツを検索することができる。
  2. コンテンツ推薦
    このモデルは、動画の核となるメッセージとセンチメントを分析し、プラットフォームがユーザーの興味に合ったコンテンツを推薦するのを助ける。
  3. ビデオクリップ
    クリエイターは、タイムスタンプラベリングとタイムポジショニング機能を使って、動画から主要なクリップをすばやく抽出し、ハイライトクリップを作成できます。
  4. 教育とトレーニング
    教育用ビデオでは、モデルが要約を生成したり、生徒の質問に答えたりして、コースの内容をすばやく理解できるようにします。
  5. ソーシャルメディア分析
    ブランドは、TikTokやWeChatのユーザー生成コンテンツを分析して、オーディエンスの感情的な反応や好みを理解することができる。

品質保証

  1. どのようなビデオフォーマットに対応していますか?
    MP4、AVI、MOVのような一般的なフォーマットがサポートされており、最適なパフォーマンスを得るためにビデオの再生時間を1~5分に制限することをお勧めします。
  2. 推理のスピードを最適化するには?
    推論を高速化するためにvLLMを使用し、GPUがCUDA 12.1をサポートしていることを確認します。ビデオの解像度を下げることでも計算量を減らすことができます。
  3. 長時間のビデオをサポートしていますか?
    このモデルは、主に短い動画(5分未満)に最適化されています。長い動画は分割して処理する必要があり、前処理スクリプトを使用して動画を分割することを推奨します。
  4. モデルはリアルタイム処理をサポートしているか?
    そう、vLLMを導入すれば、1分間のビデオ推論にかかる時間はわずか10秒であり、リアルタイム・アプリケーションに適している。
0ブックマークに登録
0表彰される

おすすめ

AIツールが見つからない?こちらをお試しください!

キーワードを入力する アクセシビリティこのサイトのAIツールセクションは、このサイトにあるすべてのAIツールを素早く簡単に見つける方法です。

トップに戻る

ja日本語