Etapa 3 Resolva os problemas de formatação por meio de processamento padronizado:
- estrutura de entradaO termo "mensagem" é usado para designar uma matriz de mensagens no formato acordado, com cada elemento explicitamente especificado.
type
Campos (texto/imagem/áudio) - unidade de pré-processamentoIntegrado
AutoProcessor
Identifica e transforma automaticamente diferentes dados modais em tensores aceitáveis para o modelo.
Exemplos de implementações específicas:
messages = [{
"role": "user",
"content": [
{"type": "image", "image": "https://example.com/img.jpg"},
{"type": "text", "text": "描述场景"}
]
}]
O projeto foi verificado para suportar a entrada mista de imagens JPEG/PNG, áudio MP3/WAV e texto UTF-8 com uma taxa de erro abaixo de 0,1%.
Essa resposta foi extraída do artigoEtapa 3: geração eficiente de macromodelos de código aberto para conteúdo multimodalO