Programa de Tecnologia de Processamento Misto Multilíngue
A SmolDocling oferece as seguintes soluções para o problema da mistura de idiomas em documentos comerciais internacionalizados:
- Otimização da detecção de idiomas1) 37 classificadores de idiomas incorporados 2) Suporta a troca automática de idiomas no nível do parágrafo 3) Pode ser forçado a especificar combinações de idiomas (por exemplo
langs=["en","ja"]) - processo de codificação mista1) Codificação de superconjunto UTF-8 2) Otimização especial para caracteres CJK (CJK) 3) Ajuste automático do fluxo de texto ao lidar com idiomas RTL, como o árabe.
- Questões típicas abordadas1) Chinês com mistura de pinyin: ativado
pinyin2hanziConversão 2) Documentação bilíngue: uselayout="parallel"Parâmetros: manter a correspondência 3) Símbolos especiais: manter a tabela de mapeamento personalizada
Sugestões de implementação: 1) Priorizar documentos colunares com limites claros de idioma 2) Treinar modelos de adaptação de forma incremental para idiomas com poucos recursos 3) Manter as informações de posição do texto original na saída para facilitar a revisão.
Essa resposta foi extraída do artigoSmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volumeO































