Um esquema para processamento de linguagem em dispositivos de borda usando o modelo Bonsai
Para resolver o problema da aritmética limitada dos dispositivos de borda, o modelo Bonsai ponderado de três valores pode ser implementado pelas seguintes etapas:
- adaptação de hardware::
- Confirmação de que o dispositivo suporta operação de ponto flutuante de 16 bits (a maioria das CPUs da arquitetura ARM pode acomodar isso)
- Para dispositivos como o Raspberry Pi, recomenda-se um ambiente Python 3.8+ (sistemas de 32 bits também podem ser executados)
- Otimização ambiental::
- Instale a versão lite da biblioteca Transformers:
pip install --no-deps transformers - Acelerado com o ONNX Runtime (basta instalar o pacote onnxruntime adicionalmente)
- Instale a versão lite da biblioteca Transformers:
- Dicas de carregamento de modelos::
- Adicionar na primeira carga
device_map='auto'Os parâmetros alocam automaticamente os recursos de computação - aprovar (um projeto de lei ou inspeção etc.)
load_in_4bit=TrueOs parâmetros comprimem ainda mais o modelo
- Adicionar na primeira carga
Em cenários típicos de aplicativos, a velocidade de geração de texto do Bonsai no Raspberry Pi 4B pode chegar a 15-20 tokens/segundo, o que atende plenamente à demanda por interação em tempo real.
Essa resposta foi extraída do artigoBonsai: um modelo de linguagem ponderada de três valores adequado para operação em dispositivos de bordaO




























