Design inovador do algoritmo DUPO
O WebAgent usa o algoritmo original DUPO (Dual-Phase Unified Optimization) para otimização de modelos, uma estrutura que integra o aprendizado supervisionado e o aprendizado por reforço em etapas. A primeira fase é o ajuste fino supervisionado com 500.000 dados anotados para desenvolver os recursos básicos, enquanto a segunda fase emprega o aprendizado por reforço baseado em feedback humano (RLHF) usando 30.000 rastros de pesquisa de alta qualidade para otimização de políticas. Esse treinamento em duas fases permite que o modelo demonstre uma melhoria de 42% na capacidade de generalização em tipos de tarefas desconhecidas no conjunto de testes BrowsingBench.
Principais inovações no processo de treinamento
- Aprendizagem dinâmica do cursoAdaptação do gradiente de dificuldade da tarefa com base no desempenho do modelo
- Função de recompensa multidimensionalOtimização simultânea dos indicadores de precisão, eficiência e credibilidade das informações
- Aprimoramento de amostras de confrontoAprimoramento da imunidade à interferência por meio do conjunto de dados SailorFog-QA
Vantagens da realização da engenharia
A estrutura oferece suporte ao treinamento distribuído e pode controlar o tempo de treinamento de modelos 72B em 72 horas em um cluster de GPU de 512 placas. A utilização otimizada da contagem de parâmetros do modelo é aumentada em 60%, que pode lidar com tarefas de consulta entre domínios mais complexas com os mesmos recursos de computação. Mais de 200 modelos de parâmetros de ajuste fornecidos pela comunidade de código aberto reduzem significativamente o limite para os desenvolvedores realizarem o aprendizado de migração.
Essa resposta foi extraída do artigoWebAgent: uma ferramenta inteligente de pesquisa e processamento de informações da WebO





























