Step3は、StepFunによって開発され、GitHubでホストされているオープンソースのマルチモーダル・マクロモデリング・プロジェクトであり、効率的で費用対効果の高いテキスト、画像、音声コンテンツ生成機能を提供するように設計されている。このプロジェクトは、321億パラメータ(38億アクティブパラメータ)のMixed Model of Expertise (MoE)を中心に、推論スピードと本番環境でのパフォーマンスを最適化しています。 アンソロピック 互換性のあるAPIインターフェース、モデルの重みはbf16とblock-fp8形式で保存され、開発者が複数の推論エンジンにデプロイするのに便利です。プロジェクトは、詳細なデプロイガイドとサンプルコードを提供し ブイエルエルエム StepFunはオープンソースを通じてAIの発展に尽力しており、Step3のコードとモデルウェイトはApache 2.0ライセンスの下でライセンスされているため、開発者は自由に使用しカスタマイズすることができる。
住所Step AI(Leap Ask):ステップスターが立ち上げたAIパーソナル効率化アシスタント
機能一覧
- マルチモーダルコンテンツ生成に対応:テキスト、画像、音声入力を処理し、高品質の出力を生成。
- 効率的な推論最適化:専門家の混合モデル(MoE)に基づき、高速な推論速度を提供し、リアルタイムアプリケーションに適しています。
- OpenAI/Anthropic互換API:以下を経由する。
https://platform.stepfun.com/
標準化されたAPIインターフェースを提供する。 - bf16とblock-fp8フォーマットのサポート:モデルウェイトがストレージを最適化し、ハードウェア要件を削減します。
- vLLMとSGLangのデプロイメント例を提供:本番環境へのモデルのデプロイメントプロセスを簡素化します。
- オープンソースのコードとモデルウェイト:開発者は自由にダウンロード、修正、使用できる。
ヘルプの使用
インストールと展開
Step3を使用するには、開発者はまずGitHubリポジトリからコードをクローンし、開発環境をセットアップする必要がある。以下はインストールと使用方法の詳細である:
- クローン・コード・リポジトリ
GitHubからStep3プロジェクトのコードを取得するには、以下のコマンドを使用する:git clone https://github.com/stepfun-ai/Step3.git cd Step3
これでStep3のソースコードがローカルにダウンロードされる。
- Python環境のセットアップ
Step3 Python 3.10以上を推奨し、PyTorch(推奨バージョン≥2.1.0)とTransformersライブラリ(推奨バージョン4.54.0)がインストールされている必要があります。以下の手順で環境を設定できます:conda create -n step3 python=3.10 conda activate step3 pip install torch>=2.1.0 pip install transformers==4.54.0
インストールが完了したら、環境が正しく設定されていることを確認してください。
- モデルウェイトのダウンロード
Step3のモデルウェイトは、bf16およびblock-fp8フォーマットでHugging Faceプラットフォーム上にホストされています。開発者は以下のアドレスからダウンロードできます:- ハグする顔のモデルアドレス
https://huggingface.co/stepfun-ai/step3
- ダウンロード例
git clone https://huggingface.co/stepfun-ai/step3
ダウンロードが完了したら、モデルウエイトのディレクトリ構造には、次のような必要なモデルファイルが含まれているはずです。
step3-fp8
もしかしたらstep3
. - ハグする顔のモデルアドレス
- 配備モデル
Step3はvLLMとSGLang推論エンジンをサポートしており、最適なパフォーマンスを得るためにマルチGPU環境(例えば、それぞれ80GBのビデオメモリを搭載した4つのA800/H800 GPU)を推奨しています。以下はvLLMを例とした導入手順です:- vLLMサービスを開始します:
python -m vllm.entrypoints.api_server --model stepfun-ai/step3 --port 8000
- 実行後、APIサービスはローカルで
http://localhost:8000
が提供されれば、開発者はAPIを通じてモデルを呼び出すことができる。 - APIリクエストの例:
import requests url = "http://localhost:8000/v1/completions" data = { "model": "stepfun-ai/step3", "prompt": "生成一张秋天森林的图片描述", "max_tokens": 512 } response = requests.post(url, json=data) print(response.json())
- vLLMサービスを開始します:
- トランスフォーマー・ライブラリーを使った推論
vLLMを使用しない場合は、Transformersライブラリを通して直接推論モデルをロードすることができます。以下にサンプルコードを示します:from transformers import AutoProcessor, AutoModelForCausalLM # 定义模型路径 model_path = "stepfun-ai/step3" processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", torch_dtype="auto", trust_remote_code=True) # 输入示例(图像 + 文本) messages = [ { "role": "user", "content": [ {"type": "image", "image": "https://example.com/image.jpg"}, {"type": "text", "text": "描述这张图片的内容"} ] } ] # 预处理输入 inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(model.device) # 生成输出 generate_ids = model.generate(**inputs, max_new_tokens=32768, do_sample=False) decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1]:], skip_special_tokens=True) print(decoded)
このコードは、モデルをロードし、マルチモーダル入力を処理し、出力を生成する方法を示している。
- 注目の機能操作
- マルチモーダル入力Step3 は、テキスト、画像、音声入力をサポートしています。開発者は、APIまたはTransformersライブラリを通して、マルチモーダルデータを渡すことができます。例えば、テキストプロンプトと共に画像をアップロードすることで、モデルは説明を生成したり、画像に関連する質問に答えたりすることができます。
- 効率的な推論Step3のMoEアーキテクチャは、リアルタイムアプリケーションの推論速度を最適化します。開発者は
max_new_tokens
パラメータは出力長を制御し、推奨値は512から32768の間である。 - カスタマイズモデル開発者は、Step3のオープンソースコードを基に、特定のスタイルのテキストや画像を生成するなど、特定のタスクに合わせてモデルを微調整し、適応させることができます。
- デバッグとサポート
デプロイや使用中に問題が発生した場合は、GitHub経由で問題を提出するか、公式メールアドレスに連絡することができる。contact@stepfun.com
StepFunコミュニティでは、Discordチャンネル(https://discord.gg/92ye5tjg7K
)を開発者が通信できるようにする。
アプリケーションシナリオ
- コンテンツ制作
Step3は、記事、画像説明、短いビデオスクリプトの生成に使用できます。クリエイターは、テキストプロンプトや画像を入力することで、ブログ、ソーシャルメディア、広告に適した高品質のコンテンツを素早く生成することができます。 - インテリジェントなカスタマーサービス
Step3のマルチモーダル機能は、音声とテキストによる対話をサポートし、インテリジェントなカスタマーサービスシステムを構築するために使用できる。組織は、顧客からの問い合わせを処理し、自然言語応答を生成するために、APIを介してStep3を統合することができます。 - 教材
先生や生徒はStep3を使って教材を作成したり、質問に答えたりすることができます。例えば、科学実験の写真をアップロードすることで、実験の詳細な手順を生成することができます。 - マルチメディア処理
ステップ3は、ビデオ編集やコンテンツ分析のために、ビデオフレームを分析して字幕を生成したり、音声に基づいて要約テキストを生成したりするなど、マルチモーダルデータを処理するのに適している。
品質保証
- Step3 対応する推論エンジンは?
Step3では、推論にvLLMとSGLangを使うことを推奨しており、これはbf16とblock-fp8形式のモデル重みをサポートし、マルチGPU環境に適している。 - モデルの重さはどうやって知るのですか?
モデルウェイトは、以下のハギング・フェイス・プラットフォームからダウンロードできる。https://huggingface.co/stepfun-ai/step3
.倉庫のクローンを作って使う。 - Step3のハードウェア要件は何ですか?
シングルGPUの推論も可能ですが、速度が遅くなります。 - 微調整されたモデルをサポートしているか?
そう、Step3のオープンソースコードとモデルウェイトによって、開発者はカスタマイズされたタスクを微調整し、適合させることができる。