Um fluxo de trabalho de avaliação de modelo automatizado pode ser criado:
- Importação de um conjunto de dados contendo perguntas de teste
- Crie colunas de resposta separadas para cada modelo a ser testado, usando a mesma estrutura de prompt
- Adicione uma coluna de julgamento com um modelo de prompt de 'Avalie {{prompt}} para a resposta 1: {{model1}}, resposta 2: {{model2}}'
- Modelos paramétricos maiores (por exemplo, nível 70B) podem ser usados como um critério de julgamento.
- O sistema gera automaticamente resultados de comparação que incluem índices de qualidade
- Salve as configurações e os resultados completos do teste com a função "Export to Hub".
Essa solução é especialmente adequada para equipes de P&D que precisam avaliar regularmente novos modelos de lançamento, economizando mais de 80% de tempo de avaliação manual.
Essa resposta foi extraída do artigoAI Sheets: criação e processamento de conjuntos de dados usando modelos de IA em tabelas sem códigoO