Seed-OSSは柔軟な推論バジェット制御機能を備えており、ユーザーはthinking_budgetパラメータによって動的に推論長を調整し、推論速度と深さのバランスをとることができる。具体的な使用方法は以下の通りである:
- 単純作業(thinking_budget=128に設定する。
- 中程度の複雑さのタスク(通常のQ&Aなど):thinking_budget=512を提案する。
- 複合ミッション(数学的推論やコード生成など):thinking_budget=1024を設定する。
このパラメータは、Pythonコードなど、生成スクリプトで直接設定することができる:
tokenized_chat = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt",
thinking_budget=1024
)
このパラメータを調整することで、ユーザーは実際のタスク要件に応じてモデルの推論効率と有効性を最適化することができる。
この答えは記事から得たものである。Seed-OSS:長い文脈推論と多様なアプリケーションのためのオープンソースの大規模言語モデルについて































