Práticas recomendadas de chamadas de API
Para obter uma extração de texto eficiente e estável, é necessário focar nos seguintes pontos técnicos principais:
- Pré-processamento de dadosRecomenda-se que as imagens sejam convertidas em escala de cinza e aumentadas a nitidez. Recomenda-se que o PDF seja paginado primeiro no formato PNG. codificação base64, preste atenção para adicionar o cabeçalho de tipo MIME correto.
- Otimização de parâmetros::
- A temperatura é definida como 0,2-0,5 para equilibrar a precisão e a suavidade.
- max_tokens ajustado de acordo com o tamanho do documento, o documento A4 geral definido como 3072 é suficiente!
- arquivo de loteImplementar uma fila de solicitações assíncronas para controlar o número de simultaneidade ≤ 4 (dependendo da memória gráfica da GPU). Código de amostra:
from concurrent.futures import ThreadPoolExecutor
with ThreadPoolExecutor(max_workers=4) as executor:
results = list(executor.map(ocr_page_with_rolm, img_base64_list))
Dica de otimização de desempenho: para documentos de várias páginas, é recomendável ativar o recurso de processamento contínuo em lote do vLLM, que pode aumentar a taxa de transferência em até três vezes. Preste atenção ao monitoramento do tempo de resposta da API; se for superior a 2 segundos, será necessário verificar a carga do serviço.
Essa resposta foi extraída do artigoRolmOCR: modelo de OCR de documentos para reconhecimento de caracteres manuscritos e inclinadosO
































