Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

llama.cpp é uma biblioteca implementada em C/C++ puro, projetada para simplificar o processo de inferência de modelos de linguagem grande (LLM). Ela é compatível com uma ampla variedade de plataformas de hardware, incluindo Apple Silicon, GPUs NVIDIA e GPUs AMD, e oferece várias opções de quantificação para aumentar a velocidade de inferência e reduzir o uso de memória. O objetivo do projeto é obter inferência LLM de alto desempenho com configuração mínima para ambientes locais e em nuvem.

llama.cpp:高效推理工具,支持多种硬件,轻松实现LLM推理-1

llama.cpp:高效推理工具,支持多种硬件,轻松实现LLM推理-1

 

Lista de funções

  • Suporte a várias plataformas de hardware, incluindo Apple Silicon, GPUs NVIDIA e GPUs AMD
  • Oferece opções de quantização de números inteiros de 1,5 a 8 bits
  • Oferece suporte a vários modelos de LLM, como LLaMA, Mistral, Falcon, etc.
  • Fornecer interface de API REST para facilitar a integração
  • Suporta raciocínio misto de CPU+GPU
  • Fornecer vários vínculos de linguagem de programação, como Python, Go, Node.js, etc.
  • Fornecer uma variedade de ferramentas e suporte de infraestrutura, como ferramentas de transformação de modelos, balanceadores de carga, etc.

 

Usando a Ajuda

Processo de instalação

  1. Armazém de Clonagem:
   git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
  1. Compile o projeto:
   make

Diretrizes para uso

transformação de modelos

O llama.cpp fornece uma variedade de ferramentas para converter e quantificar modelos para que sejam executados com eficiência em diferentes hardwares. Por exemplo, o modelo Hugging Face pode ser convertido para o formato GGML usando o seguinte comando:

python3 convert_hf_to_gguf.py --model <model_name>

Exemplo de raciocínio

Após a compilação, você pode usar os seguintes comandos para inferência:

./llama-cli -m models/llama-13b-v2/ggml-model-q4_0.gguf -p "你好,世界!"

Uso da API REST

O llama.cpp também fornece um servidor HTTP compatível com a API da OpenAI que pode ser usado para serviços de inferência de modelos locais. Inicie o servidor:

./llama-server -m models/llama-13b-v2/ggml-model-q4_0.gguf --port 8080

A UI básica da Web pode ser acessada por meio de um navegador ou usando a API para solicitações de inferência:

curl -X POST http://localhost:8080/v1/chat -d '{"prompt": "你好,世界!"}'

Fluxo de operação detalhado da função

  1. Carregamento do modeloPrimeiro, você precisa fazer o download do arquivo do modelo e colocá-lo no diretório especificado e, em seguida, carregar o modelo usando a ferramenta de linha de comando.
  2. Configuração de raciocínioParâmetros relevantes para inferência, como comprimento do contexto, tamanho do lote, etc., podem ser definidos por meio de arquivos de configuração ou parâmetros de linha de comando.
  3. Integração de APIPor meio da interface REST API, o llama.cpp pode ser integrado aos aplicativos existentes para permitir serviços de raciocínio automatizados.
  4. otimização do desempenhoUtilizar as opções de quantificação e os recursos de aceleração de hardware pode melhorar significativamente a velocidade e a eficiência da inferência.
0Marcado
0Recomendado
Duck & Pear AI Article Smart Writer
Seleção → Redação → Publicação
Totalmente automático!
Plug-in de escrita de IA para WordPress
Mais de 500 criadores de conteúdo estão usando
🎯Seleção inteligenteGeração de lotes, adeus à exaustão
🧠aprimoramento da recuperação: rede de contatos + base de conhecimento com profundidade
Totalmente automático: Redação → Gráficos → Publicação
💎Permanentemente gratuitoVersão gratuita = Versão paga, ilimitada
Baixe o plug-in gratuitamente agora mesmo!
Livre para sempre · 100% Código aberto · Armazenamento local de dados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Digite as palavras-chave.Acessibilidade à pesquisa do BingFerramentas de IA, encontre rapidamente as ferramentas de IA neste site.

Ferramentas de IA mais recentes

voltar ao topo