Descrição das restrições ambientais
O HRM conta com extensões CUDA por padrão, mas pode ser executado em placas de vídeo AMD/Intel usando o seguinte esquema:
alternativa
- Opção 1: modo CPU
- Instale a versão para CPU do PyTorch: pip install torch -cpu
- Modifique todas as chamadas .cuda() no código para .cpu()
- Configuração de variáveis de ambiente: export CUDA_VISIBLE_DEVICES=-1
Observação: A velocidade de raciocínio é reduzida em cerca de 10 vezes
- Programa 2: Conversão de ROCm
- Instalando a versão ROCm do PyTorch
- Habilite a otimização automática com torch.compile()
- Reescrevendo o kernel CUDA como código HIP
- Opção 3: corretor de serviços em nuvem
- Implantação no Azure ML por meio do tempo de execução do ONNX
- Transformação de modelos com o TensorRT-LLM
comparação de desempenho
| aparelhos | velocidade relativa | espaço de memória |
|---|---|---|
| RTX 4090 | 100% | 8 GB |
| AMD MI250 | 85% | 11 GB |
| Intel Xeon | 12% | 32 GB |
Essa resposta foi extraída do artigoHRM: modelos de raciocínio hierárquico para raciocínio complexoO




























