Como otimizar o desempenho em tempo real da HRM em tarefas de planejamento de caminhos em labirintos?

2025-08-23

312

Link diretoVisualização móvel

Requisitos do cenário

A tarefa do labirinto 30×30 exige que uma única inferência seja concluída em 200 ms, o que desafia a estrutura cíclica do HRM.

Reestruturação::
- Limitar o número de etapas de planejamento para módulos de alto nível (max_plan_steps=5)
- Use -enable-flash-attn para acelerar o cálculo da atenção
Otimização de engenharia::
1. Tabela de pesquisa com recursos de labirinto pré-gerados
2. A conversão de módulos de baixo nível para o TorchScript aumenta a eficiência da execução
3. Capturando fluxos computacionais com o CUDA Graph
Ajuste do hardware::
- Habilite a computação do Tensor Core (defina torch.backends.cuda.matmul.allow_tf32=True)
- Alocar memória fixa (pin_memory=True) para reduzir a latência de transferência

Comparação de otimização na RTX 4070:
- Atraso bruto: 320 ms
- Otimizado: 182 ms (para atender aos requisitos de tempo real)

Principais contribuições para a otimização:
1. FlashAttention: 40% Aceleração
2) TorchScript: aceleração 25%
3. gráfico CUDA: aceleração 15%