No projeto Deepdive Llama3 From Scratch, a rede feedforward SwiGLU é um dos módulos de tecnologia voltados para a criação de perfis. A SwiGLU (Sigmoid-weighted Linear Unit) é uma nova estrutura de função de ativação que pode proporcionar uma capacidade expressiva não linear mais forte do que as redes feedforward tradicionais.
Os detalhes da implementação do projeto SwiGLU estão incluídos:
- As combinações não lineares foram calculadas usando w1 e w3, com w2 como saída
- Função de ativação usando a unidade linear sigmoide (SiLU)
- A expressão matemática é: output = torch.matmul(F.silu(w1(x)) * w3(x), w2.)
Essa estrutura de rede aprimora significativamente a capacidade de extração de recursos do modelo, adicionando canais não lineares e mecanismos de bloqueio, e é uma parte importante do desempenho robusto obtido pelo Llama3.
Essa resposta foi extraída do artigoDeepdive Llama3 From Scratch: Ensinando você a implementar modelos Llama3 a partir do zeroO































