Histórico
Esperar por uma resposta completa pode causar atrasos ao lidar com grandes quantidades de dados ou textos longos. O recurso de suporte a streaming do Instructor permite o processamento incremental de resultados parciais estruturados.
Soluções essenciais
- Configuração do modo de streaming: definir stream=True em client.chat.completions.create()
- Manipulação de objetos parciais
Resposta: response_model trata automaticamente os resultados incrementais do tipo Partial[T]
- Otimização de dados em lotePara saída de lista, você pode configurar items_per_chunk para controlar o número de itens retornados por vez.
- Monitoramento de status em tempo realMonitorar o progresso do fluxo e as alterações de status por meio do sistema de gancho
Detalhes da implementação
- Para resultados parciais que precisam ser processados imediatamente, você pode configurar o parâmetro stream_interval
- Manipulação de fluxos assíncronos usando a sintaxe async/await do Python
- Combinado com uma biblioteca de barras de progresso para fornecer feedback visual ao usuário
ponto de partida
O suporte a streaming do Instructor não apenas reduz a percepção de latência, mas também reduz efetivamente o uso de memória, tornando-o particularmente adequado para o processamento de dados exigentes em grande escala ou em tempo real.
Essa resposta foi extraída do artigoInstrutor: uma biblioteca Python para simplificar fluxos de trabalho de saída estruturada para grandes modelos de linguagemO































