O sistema de avaliação da plataforma alcançou três grandes inovações tecnológicas:
- Mecanismo de avaliação não supervisionadaO "conjunto de dados dourado", que não requer rotulagem manual, tem um algoritmo proprietário que detecta inconsistências, desvios e outros problemas de qualidade na saída, economizando 801 TP3T em comparação com a avaliação manual em casos de clientes.
- Definições de regras baseadas em linguagem naturalPermitir que a equipe não técnica crie métricas de avaliação em linguagem cotidiana, como "as respostas devem evitar conteúdo politicamente sensível", que são automaticamente traduzidas em lógica de detecção acionável
- Matriz de avaliação multimodalDetecção de qualidade cruzada: suporta a detecção de qualidade cruzada de texto, imagens e áudio, por exemplo, para determinar se uma descrição de imagem omite elementos visuais importantes, com uma precisão de avaliação multimodal de 92,71 TP3T em testes internos.
Em comparação com ferramentas como o OpenAI Evals, ele é quatro vezes mais rápido e suporta avaliação de streaming em tempo real, o que o torna particularmente adequado para cenários de fluxo de trabalho agêntico que exigem iteração rápida.
Essa resposta foi extraída do artigoFuture AGI: Plataforma de observabilidade e avaliação para aplicativos de IAO




























