Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

Uma estrutura de otimização de aprendizado por reforço para o WebAgent melhora significativamente a capacidade de generalização da tarefa do modelo

2025-08-22 632
Link diretoVisualização móvel
qrcode

Design inovador do algoritmo DUPO

O WebAgent usa o algoritmo original DUPO (Dual-Phase Unified Optimization) para otimização de modelos, uma estrutura que integra o aprendizado supervisionado e o aprendizado por reforço em etapas. A primeira fase é o ajuste fino supervisionado com 500.000 dados anotados para desenvolver os recursos básicos, enquanto a segunda fase emprega o aprendizado por reforço baseado em feedback humano (RLHF) usando 30.000 rastros de pesquisa de alta qualidade para otimização de políticas. Esse treinamento em duas fases permite que o modelo demonstre uma melhoria de 42% na capacidade de generalização em tipos de tarefas desconhecidas no conjunto de testes BrowsingBench.

Principais inovações no processo de treinamento

  • Aprendizagem dinâmica do cursoAdaptação do gradiente de dificuldade da tarefa com base no desempenho do modelo
  • Função de recompensa multidimensionalOtimização simultânea dos indicadores de precisão, eficiência e credibilidade das informações
  • Aprimoramento de amostras de confrontoAprimoramento da imunidade à interferência por meio do conjunto de dados SailorFog-QA

Vantagens da realização da engenharia

A estrutura oferece suporte ao treinamento distribuído e pode controlar o tempo de treinamento de modelos 72B em 72 horas em um cluster de GPU de 512 placas. A utilização otimizada da contagem de parâmetros do modelo é aumentada em 60%, que pode lidar com tarefas de consulta entre domínios mais complexas com os mesmos recursos de computação. Mais de 200 modelos de parâmetros de ajuste fornecidos pela comunidade de código aberto reduzem significativamente o limite para os desenvolvedores realizarem o aprendizado de migração.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo

pt_BRPortuguês do Brasil