O MM-EUREKA estabelece uma nova referência tecnológica na eficiência do uso de dados de treinamento. Dados experimentais mostram que sua versão com parâmetros 8B requer apenas 8K pares de gráficos de dados de treinamento, e a versão 38B pode superar os modelos multimodais tradicionais que requerem milhões de dados de treinamento após o uso de 54K dados.
Essa eficiência decorre de três aspectos: primeiro, a abordagem de aprendizagem por reforço baseada em regras melhora consideravelmente a utilização dos dados; segundo, o design inovador da arquitetura do modelo; e terceiro, o processo de treinamento otimizado. O MM-Eureka-Dataset tornado público pela equipe do projeto no GitHub contém amostras de treinamento de alta qualidade rigorosamente selecionadas, e cada par de dados foi rotulado por especialistas e verificado em várias rodadas.
O recurso de alta eficiência de dados torna o MM-EUREKA particularmente adequado para institutos de pesquisa e pequenas equipes de desenvolvimento com capacidade de computação limitada, que podem reproduzir o desempenho de modelos de última geração com recursos limitados.
Essa resposta foi extraída do artigoMM-EUREKA: uma ferramenta de aprendizagem por reforço multimodal para explorar o raciocínio visualO































