As características de alta velocidade do Seed Diffusion decorrem de sua arquitetura técnica inovadora:
- mecanismo de decodificação paralelaDiferentemente do modelo autorregressivo, que gera tokens um a um, ele adota uma estrutura de modelo de difusão, em que o primeiro rascunho é gerado como um todo e depois refinado em paralelo, reduzindo drasticamente o número de etapas de geração.
- Otimização do aprendizado da mesma estratégiaTreinamento do modelo para aprender a obter uma geração de alta qualidade em menos etapas de difusão.
- Vantagens do processamento de dados estruturadosA estrutura robusta do próprio código é mais adequada para a otimização iterativa do modelo de difusão, permitindo que o modelo converse mais rapidamente para o resultado desejado.
Testes empíricos mostram que essa arquitetura permite o raciocínio a 2146 tokens/s, o que é 5,4 vezes mais rápido do que a abordagem tradicional, proporcionando aos usuários uma experiência de geração de código quase instantânea.
Essa resposta foi extraída do artigoDifusão de sementes: validação de modelos de linguagem de alta velocidade para arquiteturas de última geraçãoO