Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito
Posição atual:fig. início " Respostas da IA

O modelo OLMoE alcança um avanço de desempenho de 35% usando a estratégia de treinamento híbrido

2025-09-10 2.0 K

A versão OLMoE-1B-7B-0125-Instruct combina as vantagens técnicas duplas dos esquemas de treinamento híbrido Dolmino e de otimização Tülu3. O primeiro ajusta dinamicamente a estratégia de amostragem de dados no meio do treinamento, enquanto o segundo aprimora a generalização da tarefa por meio do ajuste fino da instrução. essa inovação combinada resultou em uma melhoria de 35% no desempenho geral do modelo no conjunto de avaliação padrão AI2. isso é demonstrado pelo fato de que ele supera o modelo de referência de seu antecessor no teste de controle de comprimento AlpacaEval 2 e que o desempenho da especificação de parâmetro 7B em tarefas especializadas, como geração de código, já está já está se aproximando do nível dos principais modelos de nuvem dos anos anteriores.

Notavelmente, o salto de desempenho não ocorre às custas da compatibilidade do dispositivo. O modelo adota uma arquitetura Mixture-of-Experts, que permite a alocação dinâmica de recursos de computação por meio da ativação de módulos de sub-rede. Juntamente com a quantificação de 4 bits, o pacote de implantação final é mantido abaixo de 3 GB e ainda mantém uma taxa de geração de mais de 40 tokens por segundo em chips móveis (série A17 Pro/M). Os desenvolvedores podem escolher a versão básica ou a versão de construção fornecida pela HuggingFace, sendo a primeira adequada para cenários de uso geral e a segunda aprimorada para tarefas de diálogo.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

voltar ao topo