Como implementar a função de geração de documentos do DocAgent em um ambiente off-line?

2025-08-24

1.3 K

Implementação localizada e soluções de redução de peso do modelo

Para cenários especiais em que não há conexão de rede, é necessário executar o comandoConfiguração de localização em três etapas::

Seleção de modelosConfigure o caminho do modelo local em agent_config.yaml (por exemplo, LLAMA2-7B para a versão quantificada)
llm_endpoint: "local" model_path: "./models/llama-2-7b-chat.Q4_K_M.gguf"
Otimização de hardwareModelos paramétricos 7B podem ser executados em dispositivos de 4 GB de memória usando estruturas de inferência como llama.cpp
Racionalização de dependênciasInstalação: instale apenas as dependências principais por meio do pip install -no-deps e remova os componentes relacionados ao serviço de nuvem.

Implementação das recomendações:

Implementação rápida usando imagens pré-criadas do Docker (versão docagent-offline)
Quantificação do modelo no formato GGUF para equilibrar o desempenho e a precisão
Modelos em miniatura menores, como o Phi-2, estão disponíveis para a fase de desenvolvimento e teste