A versão OLMoE-1B-7B-0125-Instruct combina as vantagens técnicas duplas dos esquemas de treinamento híbrido Dolmino e de otimização Tülu3. O primeiro ajusta dinamicamente a estratégia de amostragem de dados no meio do treinamento, enquanto o segundo aprimora a generalização da tarefa por meio do ajuste fino da instrução. essa inovação combinada resultou em uma melhoria de 35% no desempenho geral do modelo no conjunto de avaliação padrão AI2. isso é demonstrado pelo fato de que ele supera o modelo de referência de seu antecessor no teste de controle de comprimento AlpacaEval 2 e que o desempenho da especificação de parâmetro 7B em tarefas especializadas, como geração de código, já está já está se aproximando do nível dos principais modelos de nuvem dos anos anteriores.
Notavelmente, o salto de desempenho não ocorre às custas da compatibilidade do dispositivo. O modelo adota uma arquitetura Mixture-of-Experts, que permite a alocação dinâmica de recursos de computação por meio da ativação de módulos de sub-rede. Juntamente com a quantificação de 4 bits, o pacote de implantação final é mantido abaixo de 3 GB e ainda mantém uma taxa de geração de mais de 40 tokens por segundo em chips móveis (série A17 Pro/M). Os desenvolvedores podem escolher a versão básica ou a versão de construção fornecida pela HuggingFace, sendo a primeira adequada para cenários de uso geral e a segunda aprimorada para tarefas de diálogo.
Essa resposta foi extraída do artigoAi2 OLMoE: um aplicativo de IA para iOS de código aberto baseado em modelos OLMoE executados off-lineO































