Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

Nove dos principais projetos de código aberto para abrir seu caminho de aprendizado de LLM

A tecnologia de modelagem de linguagem grande (LLM) está mudando rapidamente, e a comunidade de código aberto está produzindo uma grande quantidade de recursos de aprendizado valiosos. Esses projetos são um tesouro de prática para os desenvolvedores que desejam dominar o LLM sistematicamente. Este artigo apresenta uma análise detalhada de nove projetos na comunidade de GitHub Nos principais projetos de código aberto amplamente aclamados, eles não apenas abrangem todo o processo, da teoria à prática, mas também fornecem implementação de código específico e orientação de engenharia, o suficiente para se tornar uma escada sólida em seu caminho de aprendizado.

Série Datawhale: tutoriais sistemáticos para desenvolvedores chineses

doméstico Datawhale As organizações de código aberto têm desempenhado um papel importante no campo da disseminação do conhecimento de IA. Elas lançaram uma série de tutoriais de LLM, que são muito bem recebidos pelos desenvolvedores nacionais devido ao seu conteúdo sistemático, suporte amigável para ambientes chineses e caminhos de aprendizado claros.

1. Happy-LLM: Princípios e práticas de zero a um

Happy-LLM (5k Stars) é um tutorial sistemático e totalmente gratuito sobre os princípios e a prática de modelos grandes, projetado para ajudar os desenvolvedores a obter uma compreensão profunda do núcleo do LLM. O curso começa com os conceitos básicos de PNL e analisa detalhadamente os Transformer arquitetura e mecanismos de atenção, além de fornecer uma visão geral clara dos princípios dos modelos de pré-treinamento.

O principal destaque do programa é a abordagem "prática". Ele não apenas o conduz pelo processo de PyTorch Implementar uma solução completa do zero LLaMA2 e também abrange o treinamento TokenizerO curso inclui o treinamento de modelos, o pré-treinamento de modelos e o ajuste fino supervisionado de todo o processo. Além disso, o curso inclui uma revisão do RAG(Geração aprimorada de pesquisa) e Agent Palestras práticas sobre tecnologias de ponta, como

  • endereço de código abertohttps://github.com/datawhalechina/happy-llm

2. LLM-Universe: desenvolvimento de aplicativos de modelos grandes para iniciantes

LLM-Universe (8.8k Estrelas) é um curso introdutório desenvolvido para iniciantes em programação, com foco na aplicação de grandes modelos. O tutorial é baseado em um projeto representativo - "Intelligent Q&A Assistant Based on Personal Knowledge Base" (Assistente inteligente de perguntas e respostas baseado em base de conhecimento pessoal) - e praticado nos servidores AliCloud.

O conteúdo do curso é muito prático, abrangendo a chamada dos principais modelos nacionais e estrangeiros de grande porte API(por exemplo GPTWenxin YiYiYin, Espectro da Sabedoria GLM),Prompt Habilidades de engenharia, uso LangChain a construção do banco de dados de vetores e, por fim, como usar o Streamlit Empacotar o aplicativo em uma interface de front-end interativa.

  • endereço de código abertohttps://github.com/datawhalechina/llm-universe

3. Self-LLM: um guia comestível para a localização de grandes modelos de código aberto

Self-LLM (20 mil estrelas) é conhecido como o "guia comestível para grandes modelos de código aberto adaptados para bebês chineses", e seu objetivo principal é resolver o problema da implantação privada e do ajuste fino de modelos de código aberto no ambiente doméstico. Esse projeto é valioso para os desenvolvedores que se preocupam com a privacidade dos dados e a personalização de modelos.

Ele oferece a capacidade de usar o Linux impacto ambiental LLaMAeChatGLMeQwen(Milhares de perguntas),InternLM(Shusheng-Puyin) e dezenas de outros modelos nacionais e internacionais para implantação local, ajuste fino de parâmetros completos e LoRA Etapas exaustivas para um ajuste fino eficiente. Além disso, o tutorial se estende à implantação de grandes modelos multimodais.

  • endereço de código abertohttps://github.com/datawhalechina/self-llm

4. livro de receitas do LLM: uma versão prática em chinês do curso Wu Enda

fotografia

LLM Cookbook (20.2k Estrelas) é uma versão prática em chinês baseada em uma série de cursos do Big Model do Professor Ernest Ng. Ela destila e localiza as ideias centrais do curso original, abrangendo Prompt Engenharia,RAG desenvolvimento, ajuste fino do modelo e outros aspectos importantes.

Uma característica especial desse programa é a oferta de cursos bilíngues em chinês e inglês para acompanhar o currículo original. Jupyter Notebook e para as necessidades dos desenvolvedores nacionais, especialmente otimizado para o mercado chinês. Prompt design e API Métodos de chamada. O curso é dividido em partes "obrigatórias" e "opcionais", facilitando o progresso dos alunos, passo a passo, de acordo com suas próprias circunstâncias.

  • endereço de código abertohttps://github.com/datawhalechina/llm-cookbook

Engenharia e prática profunda

Depois de dominar a teoria, colocar o modelo em produção real é o caminho a seguir. Os projetos a seguir enfocam os principais desafios de engenharia no ciclo de vida de um modelo grande.

5. LLM-Action: engenharia e implementação de modelos de grande escala

LLM-Action (19 mil estrelas) é um projeto de compartilhamento de tecnologia que se concentra na engenharia de grandes modelos e na implementação de aplicativos. Ele não é tão simples quanto um tutorial introdutório, mas se aprofunda em detalhes técnicos específicos, como treinamento de modelos, inferência, compactação e segurança.

Seu conteúdo pode ser visto como um vasto repositório de conhecimento técnico que abrange:

  • trem::LoRAeQLoRAeP-Tuning Técnicas eficientes de ajuste fino para isoparâmetros e treinamento distribuído.
  • Otimização do raciocínioExplicação detalhada TensorRT-LLMevLLM e outras estruturas de inferência convencionais do setor.
  • Compressão do modeloIntrodução sistemática a técnicas como quantificação de modelos, poda e destilação de conhecimento.
  • adaptação para localizaçãoInclui experiência na adaptação de plataformas de hardware nacionais, como o Huawei Rising.
  • endereço de código abertohttps://github.com/liguodongiot/llm-action

6. AI Engineering Hub: um repositório de aplicativos de IA do mundo real

AI Engineering Hub (13.2k Estrelas) é uma rica coleção de tutoriais detalhados e exemplos práticos, centrados no conceito de "orientação para o mundo real". AI Aplicativos". Em vez de falar sobre teorias vagas, esse projeto fornece um grande número de exemplos de código que podem ser modificados e executados diretamente em qualquer lugar.

Ele gira em torno de DeepSeekeLlamaeGemma e outros modelos populares de código aberto, fornecendo uma ampla gama de modelos, incluindo RAGmuitos Agent colaboração, aplicativos multimodais e muitas outras soluções. O projeto reuniu o tutorial principal em um documento de mais de 500 páginas PDF O documento é como um "manual de operação" detalhado e é altamente colecionável.

  • endereço de código abertohttps://github.com/patchy631/ai-engineering-hub

Refatoração do zero: uma compreensão mais profunda dos fundamentos do modelo

Para ter uma visão real de como o LLM funciona, nada melhor do que implementar um modelo do zero.

7) Replicação do MiniMind: duas horas de treinamento exclusivo para o MiniGPT.

MiniMind (22.6k Estrelas) é um projeto de código aberto fenomenal que nos prova que desenvolvedores comuns podem treinar seus próprios desenvolvedores a partir do zero GPTCom a ajuda desse projeto. Com a ajuda deste projeto, apenas uma peça de NVIDIA 3090 placa de vídeo, leva cerca de 2 horas para treinar uma placa ultraleve, com apenas 26 MB de tamanho GPT Modelos.

Esse projeto é valioso porque usa o PyTorch reestruturado Transformer Decodificador, codificação de posição rotativa (RoPE),SwiGLU Todos os algoritmos principais, como as funções de ativação, têm interfaces altamente encapsuladas que não dependem de nenhuma biblioteca de terceiros. Ele reproduz completamente todos os algoritmos principais, desde o pré-treinamento e o ajuste fino supervisionado (SFT),LoRA Adaptação, para DPO(O processo industrializado de alinhamento (otimização de preferências diretas) é um excelente livro-texto para obter uma compreensão mais profunda dos detalhes subjacentes do LLM.

  • endereço de código abertohttps://github.com/jingyaogong/minimind

Perspectiva internacional: programas confiáveis das principais instituições e especialistas

Por fim, os cursos de código aberto dos principais pesquisadores internacionais e gigantes da tecnologia oferecem uma perspectiva confiável e de ponta sobre o aprendizado do LLM.

8. curso de LLM: o caminho para os cientistas de LLM

deixar (para alguém) Maxime Labonne criado LLM Course (56,5 mil estrelas) é um programa abrangente desenvolvido para alunos avançados. Ele divide claramente o caminho do aprendizado em LLM Fundação,LLM Cientistas e LLM As três partes principais do engenheiro.

O programa oferece uma ampla gama de cursos que podem ser feitos diretamente em Google Colab em execução NotebookO conteúdo abrange o uso de QLoRA / DPO Realizar o ajuste fino do modelo,GGUF / GPTQ Quantificação e uso de mergekit Tópicos avançados, como a fusão de modelos. Além disso, ele oferece recursos como AutoQuanteLazyMergekit e outras ferramentas automatizadas para ajudar os desenvolvedores a concluir a otimização do modelo com eficiência.

  • endereço de código abertohttps://github.com/mlabonne/llm-course

9. IA generativa para iniciantes: o tutorial definitivo para iniciantes da Microsoft

Generative AI for Beginners (87,5 mil estrelas) é composto por Microsoft O curso introdutório oficial sobre IA generativa é de altíssima qualidade e é perfeito para desenvolvedores sem conhecimento prévio. Esse curso contém 21 lições bem elaboradas que abrangem tudo, desde Prompt Fundamentos de engenharia, construção de aplicativos Vincennes, integração RAG junto com Agent e outros pontos de conhecimento essenciais.

O curso oferece Python responder cantando TypeScript amostras de código, com ênfase especial na "IA responsável" (Responsible AI) sobre esse importante tópico. Ele também descreve como usar o Gradio As ferramentas de baixo código, como a construção rápida de protótipos de aplicativos, reduzem muito o limite de aprendizado.

  • endereço de código abertohttps://github.com/microsoft/generative-ai-for-beginners

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil