A AliCloud lançou recentemente seu mais recente modelo de tradução automática, o Qwen-MT, que se baseia em seu Qwen3 O Qwen-MT é uma série de grandes modelos de desenvolvimento de idiomas e está aberto a desenvolvedores e usuários corporativos por meio de uma API (qwen-mt-turbo). Diferentemente da rota de busca da escala dos parâmetros do modelo, o Qwen-MT adota uma arquitetura MoE (Mixture of Experts, mistura de especialistas) leve, que pretende fornecer ao mercado uma solução que alcance um equilíbrio entre qualidade de tradução, capacidade de resposta e custo de invocação.
Principais destaques: desempenho, custo e capacidade de controle
Os principais recursos do Qwen-MT estão em três áreas principais:
- Amplo suporte a idiomasO modelo oferece suporte à tradução de e para 92 idiomas e dialetos importantes, abrangendo as famílias de idiomas indo-europeus, sino-tibetanos, asiático-africanos, das Ilhas do Sul e outros, e afirma ser capaz de atender a mais de 95% da população mundial.
- Baixa latência e baixo custoO modelo não precisa chamar todos os parâmetros ao processar tarefas de tradução, o que permite uma inferência mais rápida. O preço oficial da API é por milhão de resultados token Com preços tão baixos quanto RMB 2, essa estratégia de preços oferece uma vantagem significativa de custo em cenários em que é necessário lidar com solicitações de tradução em grande escala e altamente simultâneas.
- Controlabilidade em cenários profissionaisO Qwen-MT oferece recursos avançados, como intervenção terminológica, dicas de domínio e memórias de tradução, além dos recursos básicos de tradução. Os usuários podem personalizar os avisos para orientar o modelo a gerar traduções mais precisas e compatíveis em setores específicos (por exemplo, jurídico, financeiro, médico) ou contextos complexos.
Avaliação de desempenho: comparação com modelos convencionais
De acordo com os dados de avaliação automática e manual publicados pela Aliyun, o desempenho da tradução do Qwen-MT é notável.
Na sessão de avaliação automática, os resultados dos testes que abrangem as tarefas de tradução de vários domínios chinês-inglês, inglês-alemão e WMT24 mostram que o Qwen-MT supera o GPT-4.1-mini, o Gemini-2.5-Flash e outros modelos de grande escala. Enquanto isso, seus resultados de tradução são comparáveis aos principais modelos de grande escala, como o GPT-4.1 e o Gemini-2.5-Pro.
Considerando as limitações da avaliação automática, a empresa também organizou uma avaliação manual baseada em cenários reais de aplicação para dez idiomas principais, incluindo chinês, inglês, japonês e coreano. Os resultados da avaliação mostraram que, na pontuação independente conduzida por tradutores profissionais, a Qwen-MT demonstrou vantagens óbvias tanto na "taxa de aprovação" quanto na "taxa de qualidade" dos resultados de tradução.
Análise de exemplos de traduções: capacidade de lidar com coloquialismos, termos da Internet e textos antigos
São fornecidos exemplos de traduções para demonstrar a capacidade do Qwen-MT de lidar com diferentes estilos de idiomas e contextos culturais.
Lidar com coloquialismos e expressões informais:
- texto original::
Make your cubicle neat, tidy and make it a homey charm.
- traduções: faça seudivididaLimpo e organizado, criandoQuente e aconcheganteA atmosfera.
- texto original::
Little study hack for y’all…
- traduções: Parafamília influenteUm pouco de aprendizadodelicadeza......
Lidar com chavões e gírias da Internet:
- texto originalComo uma empresa de Internetlit. mover tijolosrepresentações, usando os resultados para derivar seus próprios argumentos, é realmentenão têm nada melhor para fazer(matemática) gêneroum gênio em retrospecto (expressão idiomática); o retrospecto é 20-20Apenas não analise tanto.
- traduções::
As a representation of **working hard** at an internet company, it's really **annoying** to use results to deduce one's own arguments. Don't overanalyze things after the fact **like a hindsight expert**.
Lidar com vocabulário culturalmente específico:
- texto original::
Kim also attended her ex's first Donda listening party...
- traduções::Kim Kardashiantambém compareceu à estreia do álbum "Donda" de seu ex-namorado no Mercedes-Benz Stadium, em Atlanta, em 22 de julhoprévia (de uma apresentação teatral).
- texto originalContinental Enterprises: produz Jogo 3A Black Myth: GokusofrerinsularProcurado e aclamado por jovens e entusiastas de jogos... retirado de **The Journey to the West**...Afinal, todo mundo lê oAs quatro obras-primas** Cresci em chinês.
- traduções::
The **3A game "Black Myth: Wukong"** produced by a mainland company, has been enthusiastically embraced and highly praised by young people and gaming enthusiasts **in Taiwan**...it draws inspiration from the story and characters of "**Journey to the West**"...after all, they are all Chinese who grew up reading the Four Great Classical Novels.
Lidando com textos antigos:
- texto originalO Qin queria o biscoito, mas o Zhao não o deu, e não havia nada de errado entre os dois. Se Qin quisesse entrar na cidade e Qin não lhe desse o biscoito, era a favor de Qin; se Qin saísse da cidade e o jade fosse devolvido, era a favor de Zhao.
- traduções::
Moreover, if Qin desires the jade, and Zhao refuses to give it, neither side is at fault. If Zhao gives the jade but Qin does not provide the city, the fault lies with Qin; if Qin provides the city but the jade returns to Zhao, the fault lies with Zhao.
Esses casos mostram que o modelo não apenas realiza a tradução literal, mas também compreende e transforma o contexto, as conotações culturais e o estilo linguístico do texto original até certo ponto, o que é crucial para gerar traduções naturais e de alta qualidade.
Lista de idiomas suportados
família de idiomas | tipo de idioma (em uma classificação) |
---|---|
Família de idiomas indo-europeus | Africâner, armênio, assamês, asturiano, bielorrusso, bengali, bósnio, búlgaro, catalão, croata, tcheco, dinamarquês, holandês, inglês, francês, galego, alemão, grego, gujarati, hindi, islandês, italiano, letão, lituano, luxemburguês, macedônio, magiar, marata, árabe mesopotâmico, nepalês, norueguês escrito, novo norueguês, ocotiano, oriya, polonês, português, romeno, russo, polonês Macedônio, magahi, marata, árabe da Mesopotâmia, nepalês, norueguês escrito, novo norueguês, auk, oriya, polonês, português, romeno, russo, sérvio, siciliano, sindi, cingalês, eslovaco, esloveno, espanhol, sueco, albanês da Toscana, ucraniano, urdu, veneziano, galês, persa. Veneziano, galês, persa |
Família de idiomas sino-tibetanos | Chinês (cantonês, simplificado, tradicional), birmanês |
Família de idiomas afro-asiáticos | Árabe (padrão, egípcio, mesopotâmico, marroquino, nezhi, Levante do Norte, Levante do Sul, Taiz Aden, tunisiano), hebraico, maltês |
Austronésico | Cebuano, Bahasa Indonesia, Javanês, Malaio, Bunasinan, Tagalog, Valay |
Dravidiano (termo geral para povos e idiomas do sul da Índia) | Kannada, Tamil, Telugu |
Família de idiomas turcos | Cazaque, azerbaijano do norte, uzbeque do norte, turco |
Família linguística Zhuang-Dong | Tailandês, Laos |
Família de idiomas urálicos | Estoniano, finlandês, húngaro |
Família de idiomas do sul da Ásia | Khmer, vietnamita |
Outras famílias de idiomas | Basco, georgiano, japonês, coreano, kiswahili |
Métodos de chamada de API
O desenvolvedor pode facilitar a obtenção do máximo de seu sistema sendo compatível com o OpenAI
API, a seguir estão alguns dos formatos fornecidos oficialmente Python
Exemplo.
Tradução básica:
import os
from openai import OpenAI
client = OpenAI(
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
messages = [
{
"role": "user",
"content": "我看到这个视频后没有笑"
}
]
translation_options = {
"source_lang": "auto",
"target_lang": "English"
}
completion = client.chat.completions.create(
model="qwen-mt-turbo",
messages=messages,
extra_body={
"translation_options": translation_options
}
)
print(completion.choices.message.content)
Uso de intervenções terminológicas:
Para traduções em áreas especializadas de terms
Resultados de tradução para terminologia predefinida parametrizada para garantir a precisão do vocabulário especializado.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
messages = [
{
"role": "user",
"content": "而这套生物传感器运用了石墨烯这种新型材料,它的目标物是化学元素,敏锐的“嗅觉”让它能更深度、准确地体现身体健康状况。"
}
]
translation_options = {
"source_lang": "Chinese",
"target_lang": "English",
"terms": [
{
"source": "生物传感器",
"target": "biological sensor"
},
{
"source": "石墨烯",
"target": "graphene"
},
{
"source": "化学元素",
"target": "chemical elements"
},
{
"source": "身体健康状况",
"target": "health status of the body"
}
]
}
completion = client.chat.completions.create(
model="qwen-mt-turbo",
messages=messages,
extra_body={
"translation_options": translation_options
}
)
print(completion.choices.message.content)
# 预期输出:
# This biological sensor uses graphene, a new material, and its target is chemical elements. Its sensitive "nose" can more deeply and accurately reflect the health status of the body.
Especifique o domínio e o estilo:
aprovar (um projeto de lei ou inspeção etc.) domains
Os parâmetros podem fornecer dicas de linguagem natural que orientam o modelo a adotar um estilo de escrita específico do domínio para a tradução.
import os
from openai import OpenAI
client = OpenAI(
api_key=os.getenv("DASHSCOPE_API_KEY"),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
messages = [
{
"role": "user",
"content": "第二个SELECT语句返回一个数字,表示在没有LIMIT子句的情况下,第一个SELECT语句返回了多少行。"
}
]
translation_options = {
"source_lang": "Chinese",
"target_lang": "English",
"domains": "The sentence is from Ali Cloud IT domain. It mainly involves computer-related software development and usage methods, including many terms related to computer software and hardware. Pay attention to professional troubleshooting terminologies and sentence patterns when translating. Translate into this IT domain style."
}
completion = client.chat.completions.create(
model="qwen-mt-turbo",
messages=messages,
extra_body={
"translation_options": translation_options
}
)
print(completion.choices.message.content)
# 预期输出:
# The second SELECT statement returns a number that indicates how many rows were returned by the first SELECT statement without LIMIT clause.