O MM-EUREKA é uma ferramenta de raciocínio multimodal de código aberto desenvolvida em conjunto pelo Shanghai Artificial Intelligence Laboratory, pela Shanghai Jiaotong University e por outras instituições, e sua principal inovação está na extensão das técnicas de aprendizado de reforço baseadas em regras para cenários de coprocessamento visual e de texto.
As principais vantagens técnicas incluem:
- Capacidade de fusão multimodalAnálise de informações de imagem e texto, por exemplo, correlação automática de recursos gráficos e descrições textuais ao lidar com problemas de matemática gráfica.
- Aprendizado por reforço orientado por regrasReduza a dependência de dados com uma estrutura de treinamento estruturada que supera os modelos tradicionais de vários milhões de dados com 54 mil amostras de treinamento.
- Mecanismo de reflexão visualSimulação do comportamento humano de "epifania" durante o raciocínio e apoio à validação secundária de sinais de imagem
- arquitetura de modelo duploEscala de parâmetros: fornece modelos com escalas de parâmetros 8B e 38B, equilibrando as necessidades de eficiência e precisão.
Essa resposta foi extraída do artigoMM-EUREKA: uma ferramenta de aprendizagem por reforço multimodal para explorar o raciocínio visualO































