A CoAgents alcança a competência dividindo as tarefas de uso de ferramentas em três inteligências especializadas:
- Agente de baseResponsável por traduzir a intenção do usuário em instruções executáveis, resolvendo o problema "o que fazer".
- agente executorEspecialista na chamada real de ferramentas/APIs, resolvendo o problema de "como fazer".
- Agentes de observaçãoExtrair informações estruturadas dos dados brutos retornados, resolvendo o problema "qual é o resultado".
Os três formam um fluxo de trabalho de loop fechado, que pode ser otimizado iterativamente por meio de feedback do ambiente quando ocorrem erros de execução. Por exemplo, no caso do TMDB, o usuário digita "find sci-fi movies" (encontrar filmes de ficção científica), o agente de base gera comandos de consulta de API, o agente de execução chama a interface /search (pesquisa) e o agente de observação extrai os principais campos, como título/classificação, dos resultados JSON. Essa divisão de trabalho permite que o LLM use ferramentas complexas com mais precisão.
Essa resposta foi extraída do artigoCoAgents: uma estrutura para aprender a usar ferramentas por meio da colaboração de várias inteligênciasO