Como usar o HRM para inferência em um ambiente gráfico que não seja da NVIDIA?

2025-08-23

308

Descrição das restrições ambientais

O HRM conta com extensões CUDA por padrão, mas pode ser executado em placas de vídeo AMD/Intel usando o seguinte esquema:

Opção 1: modo CPU
1. Instale a versão para CPU do PyTorch: pip install torch -cpu
2. Modifique todas as chamadas .cuda() no código para .cpu()
3. Configuração de variáveis de ambiente: export CUDA_VISIBLE_DEVICES=-1
Observação: A velocidade de raciocínio é reduzida em cerca de 10 vezes
Programa 2: Conversão de ROCm
1. Instalando a versão ROCm do PyTorch
2. Habilite a otimização automática com torch.compile()
3. Reescrevendo o kernel CUDA como código HIP
Opção 3: corretor de serviços em nuvem
- Implantação no Azure ML por meio do tempo de execução do ONNX
- Transformação de modelos com o TensorRT-LLM