Guia de implantação eficiente para Android
A execução do modelo paramétrico 14B em um dispositivo móvel requer atenção especial aos seguintes pontos-chave:
- Prioridade de seleção de versão::
- Q4_K_M.gguf (melhor equilíbrio)
- IQ3_XS.gguf (Extreme Edition)
- Evite usar a versão F16
- Processo de operação específico::
- Faça o download do arquivo de modelo GGUF adaptado via HuggingFace (<8 GB recomendado)
- Instalar o termux e configurar o ambiente Linux:
pkg install clang make cmake - Compile a ramificação llama.cpp que adapta o Android:
git clone -b android https://github.com/ggerganov/llama.cpp - fazer uso de
--n-gpu-layers 20Seção de parâmetros para ativar a aceleração da GPU
- Dicas de otimização de desempenho::
- configurar
--threads 4Corresponder ao número de núcleos de CPU do dispositivo - aumentar
--mlockEvitando a troca de memória - fazer uso de
--prompt-cacheCache Palavras-chave comuns
- configurar
- Alternativa oficial ao APKSe a implementação manual for difícil, um APK pré-construído pode ser baixado do HuggingFace, mas observe que somente determinadas versões do modelo são compatíveis!
Essa resposta foi extraída do artigoTifa-Deepsex-14b-CoT: um modelo grande especializado em interpretação de papéis e geração de ficção ultralongaO































