Posição atual:fig. início " Respostas da IA

Uma estrutura de otimização de aprendizado por reforço para o WebAgent melhora significativamente a capacidade de generalização da tarefa do modelo

2025-08-22

708

Link diretoVisualização móvel

Design inovador do algoritmo DUPO

O WebAgent usa o algoritmo original DUPO (Dual-Phase Unified Optimization) para otimização de modelos, uma estrutura que integra o aprendizado supervisionado e o aprendizado por reforço em etapas. A primeira fase é o ajuste fino supervisionado com 500.000 dados anotados para desenvolver os recursos básicos, enquanto a segunda fase emprega o aprendizado por reforço baseado em feedback humano (RLHF) usando 30.000 rastros de pesquisa de alta qualidade para otimização de políticas. Esse treinamento em duas fases permite que o modelo demonstre uma melhoria de 42% na capacidade de generalização em tipos de tarefas desconhecidas no conjunto de testes BrowsingBench.

Principais inovações no processo de treinamento

Aprendizagem dinâmica do cursoAdaptação do gradiente de dificuldade da tarefa com base no desempenho do modelo
Função de recompensa multidimensionalOtimização simultânea dos indicadores de precisão, eficiência e credibilidade das informações
Aprimoramento de amostras de confrontoAprimoramento da imunidade à interferência por meio do conjunto de dados SailorFog-QA

Vantagens da realização da engenharia

A estrutura oferece suporte ao treinamento distribuído e pode controlar o tempo de treinamento de modelos 72B em 72 horas em um cluster de GPU de 512 placas. A utilização otimizada da contagem de parâmetros do modelo é aumentada em 60%, que pode lidar com tarefas de consulta entre domínios mais complexas com os mesmos recursos de computação. Mais de 200 modelos de parâmetros de ajuste fornecidos pela comunidade de código aberto reduzem significativamente o limite para os desenvolvedores realizarem o aprendizado de migração.

Essa resposta foi extraída do artigoWebAgent: uma ferramenta inteligente de pesquisa e processamento de informações da WebO

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA " Uma estrutura de otimização de aprendizado por reforço para o WebAgent melhora significativamente a capacidade de generalização da tarefa do modelo

Uma estrutura de otimização de aprendizado por reforço para o WebAgent melhora significativamente a capacidade de generalização da tarefa do modelo

Design inovador do algoritmo DUPO

Principais inovações no processo de treinamento

Vantagens da realização da engenharia

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Uma estrutura de otimização de aprendizado por reforço para o WebAgent melhora significativamente a capacidade de generalização da tarefa do modelo

Design inovador do algoritmo DUPO

Principais inovações no processo de treinamento

Vantagens da realização da engenharia

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida