Requisitos de sistema para uma ecologia de tecnologia fechada
A operação do csm-mlx é estritamente dependente da pilha de tecnologia da Apple, incluindo dispositivos Mac com chips M1/M2, sistema operacional macOS e ambiente Python 3.10+. Essa vinculação profunda traz benefícios de desempenho, bem como limitações técnicas: os arquivos de pesos do modelo estão no formato safetensors otimizado para MLX, que não pode ser convertido diretamente para o formato ONNX ou TensorRT para uso em outras plataformas.
A configuração do ambiente de desenvolvimento requer o conjunto de ferramentas de administração Homebrew, a instalação da estrutura MLX (pip install mlx) e o componente huggingface_hub por meio de comandos específicos. A prática demonstrou que, em um dispositivo com chip M2 Pro com 16 GB de RAM, o tempo de carregamento do modelo na inicialização a frio é de cerca de 12 segundos, e o espaço de memória para a inferência subsequente é estável em 3,2 GB. Observe que o sistema impõe uma taxa de amostragem de áudio fixa de 22050 Hz, que é totalmente compatível com a taxa de amostragem padrão da estrutura AVFAudio da Apple, mas pode precisar ser reamostrada para lidar com outras fontes de áudio.
Essa resposta foi extraída do artigocsm-mlx: modelo de geração de fala csm para dispositivos AppleO































