軽量化のためのエンジニアリング・プログラム
1B/3Bモデルの異なるニーズに対応:
- フレーム選択Transformersネイティブ推論とvLLM最適化フレームワークのサポート(後者は3~5倍のスループット向上)
- 量的圧縮使用
torch.quantization3Bのモデルを2GB以下に圧縮 - 階層ローディング音声コーディング(xcodec2)とジェネレーティブ・モデリングは、デバイスごとに導入することができます。
具体的な手順model.to('cpu')ベンチマークの性能をテストする。torch.jit.trace3) ONNXランタイムのサポートは、バージョン8Bのリリースと同時に提供される。
この答えは記事から得たものである。Llasa 1~8B: 高品質音声生成とクローニングのためのオープンソース音声合成モデルについて































