Um esquema de implementação móvel para modelos de geração de texto MNN acelerados
O aprimoramento da capacidade de resposta da geração de texto requer três dimensões: seleção de modelos, otimização do pré-processamento e aceleração da inferência:
- Seleção de modelos levesPrioridade: É dada prioridade ao uso de modelos de compactação, como o TinyLLM ou o DistilGPT convertido em MNN, com uma contagem típica de parâmetros de 100 milhões ou menos.
- Técnicas de aceleração de pré-processamento1) Uso do módulo 'MNN::CV' em vez do OpenCV para codificação de texto 2) Pré-carregamento do léxico na memória 3) Adoção de uma estratégia de segmentação assíncrona
- Processamento dinâmico de lotesEntrada de comprimento variável via 'Interpreter::resizeTensor' com 'MNN::Tensor::create' para criar mapas computacionais dinâmicos
- mecanismo de cacheCache LRU: construa caches LRU para consultas de alta frequência, armazenando objetos de "sessão" e tensor de saída para problemas comuns
Exemplo de uma configuração típica de aceleração:
Especifique a configuração "MNN::ScheduleConfig" em "createSession":
backendConfig.precision = BackendConfig::Precision_Low;
backendConfig.power = BackendConfig::Power_High;
Essa resposta foi extraída do artigoMNN-LLM-Android: modelagem de linguagem multimodal MNN para AndroidO































