Uma abordagem passo a passo para desmontar o processo de raciocínio
Para entender sistematicamente o processo de raciocínio da Llama3, recomenda-se seguir as etapas a seguir:
- Obter o código do projetoFaça o download do projeto Deepdive-llama3-from-scratch via GitHub, e recomendamos executá-lo em um ambiente Jupyter Notebook!
- Aprendizado em módulosFoco em
llama3_inference.pyOs 6 estágios principais em: incorporação de entrada → computação de atenção → rede de alimentação → conectividade residual → camada de saída → previsão - Técnicas de rastreamento dimensionalUsando a função
.shapeMudanças na dimensionalidade da matriz de validação do método (por exemplo, [17×4096] → [17×128]), recomenda-se a elaboração de diagramas de transformação do fluxo de dados à mão - Realização de comparaçõesAdicionar nós computacionais importantes (por exemplo, RMSNorm, codificação posicional RoPE)
print()produz o resultado intermediário
Dica avançada: Combine osattention.pyprestando atenção especial aos detalhes de implementação do Grouped Query Attention (GQA), modificando onum_kv_headsParâmetro Observação Cálculo Mudança de volume.
Essa resposta foi extraída do artigoDeepdive Llama3 From Scratch: Ensinando você a implementar modelos Llama3 a partir do zeroO































