A tecnologia de modelagem de linguagem grande (LLM) está mudando rapidamente, e a comunidade de código aberto está produzindo uma grande quantidade de recursos de aprendizado valiosos. Esses projetos são um tesouro de prática para os desenvolvedores que desejam dominar o LLM sistematicamente. Este artigo apresenta uma análise detalhada de nove projetos na comunidade de GitHub
Nos principais projetos de código aberto amplamente aclamados, eles não apenas abrangem todo o processo, da teoria à prática, mas também fornecem implementação de código específico e orientação de engenharia, o suficiente para se tornar uma escada sólida em seu caminho de aprendizado.
Série Datawhale: tutoriais sistemáticos para desenvolvedores chineses
doméstico Datawhale
As organizações de código aberto têm desempenhado um papel importante no campo da disseminação do conhecimento de IA. Elas lançaram uma série de tutoriais de LLM, que são muito bem recebidos pelos desenvolvedores nacionais devido ao seu conteúdo sistemático, suporte amigável para ambientes chineses e caminhos de aprendizado claros.
1. Happy-LLM: Princípios e práticas de zero a um
Happy-LLM
(5k Stars) é um tutorial sistemático e totalmente gratuito sobre os princípios e a prática de modelos grandes, projetado para ajudar os desenvolvedores a obter uma compreensão profunda do núcleo do LLM. O curso começa com os conceitos básicos de PNL e analisa detalhadamente os Transformer
arquitetura e mecanismos de atenção, além de fornecer uma visão geral clara dos princípios dos modelos de pré-treinamento.
O principal destaque do programa é a abordagem "prática". Ele não apenas o conduz pelo processo de PyTorch
Implementar uma solução completa do zero LLaMA2
e também abrange o treinamento Tokenizer
O curso inclui o treinamento de modelos, o pré-treinamento de modelos e o ajuste fino supervisionado de todo o processo. Além disso, o curso inclui uma revisão do RAG
(Geração aprimorada de pesquisa) e Agent
Palestras práticas sobre tecnologias de ponta, como
- endereço de código aberto:
https://github.com/datawhalechina/happy-llm
2. LLM-Universe: desenvolvimento de aplicativos de modelos grandes para iniciantes
LLM-Universe
(8.8k Estrelas) é um curso introdutório desenvolvido para iniciantes em programação, com foco na aplicação de grandes modelos. O tutorial é baseado em um projeto representativo - "Intelligent Q&A Assistant Based on Personal Knowledge Base" (Assistente inteligente de perguntas e respostas baseado em base de conhecimento pessoal) - e praticado nos servidores AliCloud.
O conteúdo do curso é muito prático, abrangendo a chamada dos principais modelos nacionais e estrangeiros de grande porte API
(por exemplo GPT
Wenxin YiYiYin, Espectro da Sabedoria GLM
),Prompt
Habilidades de engenharia, uso LangChain
a construção do banco de dados de vetores e, por fim, como usar o Streamlit
Empacotar o aplicativo em uma interface de front-end interativa.
- endereço de código aberto:
https://github.com/datawhalechina/llm-universe
3. Self-LLM: um guia comestível para a localização de grandes modelos de código aberto
Self-LLM
(20 mil estrelas) é conhecido como o "guia comestível para grandes modelos de código aberto adaptados para bebês chineses", e seu objetivo principal é resolver o problema da implantação privada e do ajuste fino de modelos de código aberto no ambiente doméstico. Esse projeto é valioso para os desenvolvedores que se preocupam com a privacidade dos dados e a personalização de modelos.
Ele oferece a capacidade de usar o Linux
impacto ambiental LLaMA
eChatGLM
eQwen
(Milhares de perguntas),InternLM
(Shusheng-Puyin) e dezenas de outros modelos nacionais e internacionais para implantação local, ajuste fino de parâmetros completos e LoRA
Etapas exaustivas para um ajuste fino eficiente. Além disso, o tutorial se estende à implantação de grandes modelos multimodais.
- endereço de código aberto:
https://github.com/datawhalechina/self-llm
4. livro de receitas do LLM: uma versão prática em chinês do curso Wu Enda
LLM Cookbook
(20.2k Estrelas) é uma versão prática em chinês baseada em uma série de cursos do Big Model do Professor Ernest Ng. Ela destila e localiza as ideias centrais do curso original, abrangendo Prompt
Engenharia,RAG
desenvolvimento, ajuste fino do modelo e outros aspectos importantes.
Uma característica especial desse programa é a oferta de cursos bilíngues em chinês e inglês para acompanhar o currículo original. Jupyter Notebook
e para as necessidades dos desenvolvedores nacionais, especialmente otimizado para o mercado chinês. Prompt
design e API
Métodos de chamada. O curso é dividido em partes "obrigatórias" e "opcionais", facilitando o progresso dos alunos, passo a passo, de acordo com suas próprias circunstâncias.
- endereço de código aberto:
https://github.com/datawhalechina/llm-cookbook
Engenharia e prática profunda
Depois de dominar a teoria, colocar o modelo em produção real é o caminho a seguir. Os projetos a seguir enfocam os principais desafios de engenharia no ciclo de vida de um modelo grande.
5. LLM-Action: engenharia e implementação de modelos de grande escala
LLM-Action
(19 mil estrelas) é um projeto de compartilhamento de tecnologia que se concentra na engenharia de grandes modelos e na implementação de aplicativos. Ele não é tão simples quanto um tutorial introdutório, mas se aprofunda em detalhes técnicos específicos, como treinamento de modelos, inferência, compactação e segurança.
Seu conteúdo pode ser visto como um vasto repositório de conhecimento técnico que abrange:
- trem::
LoRA
eQLoRA
eP-Tuning
Técnicas eficientes de ajuste fino para isoparâmetros e treinamento distribuído. - Otimização do raciocínioExplicação detalhada
TensorRT-LLM
evLLM
e outras estruturas de inferência convencionais do setor. - Compressão do modeloIntrodução sistemática a técnicas como quantificação de modelos, poda e destilação de conhecimento.
- adaptação para localizaçãoInclui experiência na adaptação de plataformas de hardware nacionais, como o Huawei Rising.
- endereço de código aberto:
https://github.com/liguodongiot/llm-action
6. AI Engineering Hub: um repositório de aplicativos de IA do mundo real
AI Engineering Hub
(13.2k Estrelas) é uma rica coleção de tutoriais detalhados e exemplos práticos, centrados no conceito de "orientação para o mundo real". AI
Aplicativos". Em vez de falar sobre teorias vagas, esse projeto fornece um grande número de exemplos de código que podem ser modificados e executados diretamente em qualquer lugar.
Ele gira em torno de DeepSeek
eLlama
eGemma
e outros modelos populares de código aberto, fornecendo uma ampla gama de modelos, incluindo RAG
muitos Agent
colaboração, aplicativos multimodais e muitas outras soluções. O projeto reuniu o tutorial principal em um documento de mais de 500 páginas PDF
O documento é como um "manual de operação" detalhado e é altamente colecionável.
- endereço de código aberto:
https://github.com/patchy631/ai-engineering-hub
Refatoração do zero: uma compreensão mais profunda dos fundamentos do modelo
Para ter uma visão real de como o LLM funciona, nada melhor do que implementar um modelo do zero.
7) Replicação do MiniMind: duas horas de treinamento exclusivo para o MiniGPT.
MiniMind
(22.6k Estrelas) é um projeto de código aberto fenomenal que nos prova que desenvolvedores comuns podem treinar seus próprios desenvolvedores a partir do zero GPT
Com a ajuda desse projeto. Com a ajuda deste projeto, apenas uma peça de NVIDIA 3090
placa de vídeo, leva cerca de 2 horas para treinar uma placa ultraleve, com apenas 26 MB de tamanho GPT
Modelos.
Esse projeto é valioso porque usa o PyTorch
reestruturado Transformer
Decodificador, codificação de posição rotativa (RoPE
),SwiGLU
Todos os algoritmos principais, como as funções de ativação, têm interfaces altamente encapsuladas que não dependem de nenhuma biblioteca de terceiros. Ele reproduz completamente todos os algoritmos principais, desde o pré-treinamento e o ajuste fino supervisionado (SFT
),LoRA
Adaptação, para DPO
(O processo industrializado de alinhamento (otimização de preferências diretas) é um excelente livro-texto para obter uma compreensão mais profunda dos detalhes subjacentes do LLM.
- endereço de código aberto:
https://github.com/jingyaogong/minimind
Perspectiva internacional: programas confiáveis das principais instituições e especialistas
Por fim, os cursos de código aberto dos principais pesquisadores internacionais e gigantes da tecnologia oferecem uma perspectiva confiável e de ponta sobre o aprendizado do LLM.
8. curso de LLM: o caminho para os cientistas de LLM
deixar (para alguém) Maxime Labonne
criado LLM Course
(56,5 mil estrelas) é um programa abrangente desenvolvido para alunos avançados. Ele divide claramente o caminho do aprendizado em LLM
Fundação,LLM
Cientistas e LLM
As três partes principais do engenheiro.
O programa oferece uma ampla gama de cursos que podem ser feitos diretamente em Google Colab
em execução Notebook
O conteúdo abrange o uso de QLoRA
/ DPO
Realizar o ajuste fino do modelo,GGUF
/ GPTQ
Quantificação e uso de mergekit
Tópicos avançados, como a fusão de modelos. Além disso, ele oferece recursos como AutoQuant
eLazyMergekit
e outras ferramentas automatizadas para ajudar os desenvolvedores a concluir a otimização do modelo com eficiência.
- endereço de código aberto:
https://github.com/mlabonne/llm-course
9. IA generativa para iniciantes: o tutorial definitivo para iniciantes da Microsoft
Generative AI for Beginners
(87,5 mil estrelas) é composto por Microsoft
O curso introdutório oficial sobre IA generativa é de altíssima qualidade e é perfeito para desenvolvedores sem conhecimento prévio. Esse curso contém 21 lições bem elaboradas que abrangem tudo, desde Prompt
Fundamentos de engenharia, construção de aplicativos Vincennes, integração RAG
junto com Agent
e outros pontos de conhecimento essenciais.
O curso oferece Python
responder cantando TypeScript
amostras de código, com ênfase especial na "IA responsável" (Responsible AI
) sobre esse importante tópico. Ele também descreve como usar o Gradio
As ferramentas de baixo código, como a construção rápida de protótipos de aplicativos, reduzem muito o limite de aprendizado.
- endereço de código aberto:
https://github.com/microsoft/generative-ai-for-beginners