Antrópica A empresa lançou seu mais recente modelo principal Claude Sonnet 4.5É o modelo de codificação mais poderoso do mundo. Não se trata apenas de uma iteração regular do modelo, mas de um salto em grande escala na construção de inteligências (agentes) de IA, operações de computador e recursos de raciocínio complexos.
O código é a pedra angular do mundo digital, impulsionando todos os aplicativos, planilhas e ferramentas de software que usamos diariamente. Compreender e navegar por essas ferramentas, bem como raciocinar sobre problemas complexos, está no centro da produtividade moderna.Claude Sonnet 4.5 foi lançado para levar esse recurso a novos patamares.
Acompanhando o lançamento do novo modelo, há uma série de análises do Claude Uma grande atualização na ecologia do produto:
- Aprimoramentos do código ClaudeO novo recurso "checkpoints" permite que os usuários salvem seu progresso e voltem a um estado anterior a qualquer momento. A interface do terminal também foi atualizada com a introdução do recurso nativo
VS CodeExtensão. - Extensão do recurso de API: em
Claude APINovos recursos de edição contextual e ferramentas de memória foram introduzidos para permitir que as inteligências de IA lidem com tarefas com tempos de execução mais longos e maior complexidade. - Integração da funcionalidade no aplicativo: em
Claudeos usuários agora podem executar códigos e criar arquivos (por exemplo, planilhas, apresentações de slides e documentos) diretamente na caixa de diálogo. - Ferramentas de desenvolvedor abertas: Lançamento
Claude Agent SDKvontadeAnthropicUsado internamente para construirClaude Codeinfraestrutura aberta a todos os desenvolvedores.
Claude Sonnet 4.5 foi totalmente lançado hoje. Os desenvolvedores podem acessar o Claude API invocações claude-sonnet-4-5 para usar. Notavelmente, o preço é comparável ao da geração anterior do Claude Sonnet 4 Consistente, para cada milhão de entradas/saídas token 15/03 USD.
Inteligência e desempenho de primeira linha
Claude Sonnet 4.5 existir SWE-bench Verified A melhor pontuação atual na análise. Esse benchmark foi alcançado por meio da captura e validação de GitHub em problemas reais de engenharia de software para medir a codificação no mundo real e os recursos de reparo de software dos modelos de IA. Nos testes do mundo real, aClaude Sonnet 4.5 Capacidade de manter o foco por mais de 30 horas em tarefas complexas de várias etapas.

Em termos de competência em informática.Claude Sonnet 4.5 O mesmo grande salto foi dado. Em OSWorld No teste de benchmark, ele obteve uma pontuação de 61,41 TP3T.OSWorld Projetado para avaliar a capacidade dos modelos de IA de executar tarefas reais de computador, como gerenciamento de arquivos, instalação de software e configuração do sistema. Há apenas quatro meses, oSonnet 4 Com uma pontuação líder de 42,21 TP3T nesse teste, a melhoria do novo modelo é óbvia.
Esse recurso foi adotado Claude for Chrome A extensão pôde ser aplicada. No vídeo de demonstração abaixo, o Claude Como trabalhar diretamente no navegador, incluindo navegação em sites, preenchimento de planilhas e conclusão de tarefas atribuídas.
Além da codificação e do uso do computador, o modelo demonstrou melhorias significativas em avaliações mais amplas, como raciocínio e matemática:

Em áreas profissionais como finanças, direito, medicina e STEM, os especialistas descobriram que Claude Sonnet 4.5 Compare isso com Opus 4.1 no modelo antigo, um salto qualitativo no conhecimento do domínio e na capacidade de raciocínio.
| financeiro | legislação | estudo da medicina | STEM |
|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
O modelo de fronteira mais "alinhado" até o momento
Além de ser um artista poderoso, oClaude Sonnet 4.5 também Anthropic O modelo de fronteira mais "alinhado" até o momento. O alinhamento do modelo visa garantir que o comportamento da IA seja consistente com as intenções e os valores humanos. Por meio de recursos aprimorados e amplo treinamento de segurança, aAnthropic Melhorou significativamente o comportamento do modelo, reduzindo tendências indesejáveis, como bajulação, engano, busca de poder e incentivo a delírios.
para inteligências modeladas e recursos de uso do computador.Anthropic Também houve um progresso significativo na defesa contra "ataques de injeção de palavras-chave". A injeção de palavras-chave é um dos riscos mais sérios enfrentados pelas inteligências de IA atualmente, em que um usuário mal-intencionado pode sequestrar as instruções originais de uma IA por meio de entradas inteligentemente construídas, fazendo com que ela execute ações não intencionais ou prejudiciais.

Claude Sonnet 4.5 existir Anthropic A versão está sob a estrutura AI Safety Level 3 (ASL-3), que garante que a robustez do modelo seja combinada com as proteções de segurança adequadas. Isso inclui classificadores projetados para detectar entradas e saídas potencialmente perigosas, especialmente aquelas relacionadas a armas químicas, biológicas, radiológicas e nucleares (CBRN).
Embora esses classificadores possam, às vezes, informar incorretamente o conteúdo normal, o Anthropic reduziu a taxa de alarmes falsos em um fator de dez em comparação com o original e oferece aos usuários a capacidade de alternar facilmente para o Sonnet 4 Opções para o modelo.
Claude Agent SDK: uma ferramenta essencial para a criação aberta de corpos inteligentes
Anthropic Foram necessários mais de seis meses para iterar o Claude CodeA equipe acumulou muita experiência sobre como criar e projetar inteligências de IA. Eles resolveram muitos problemas difíceis: como fazer com que as inteligências gerenciem a memória de forma eficaz durante tarefas longas, como projetar sistemas de permissão que equilibrem autonomia e controle do usuário e como coordenar várias subinteligências para atingir objetivos comuns.
Agora.Anthropic Empacotar essas experiências e ferramentas em Claude Agent SDK Aberto a todos os desenvolvedores. O SDK não é apenas para tarefas de codificação, ele fornece uma base sólida para a criação de inteligências complexas de todos os tipos. Esse movimento é um sinal claro:Anthropic Não apenas para fornecer modelos avançados, mas também para capacitar os desenvolvedores a criar a próxima geração de aplicativos de IA, criando assim um ecossistema próspero.
Prévia da pesquisa: Imagine with Claude
Como uma prévia do estudo por tempo limitado, oAnthropic Foi lançado um recurso experimental chamado "Imagine with Claude". Nesse recurso, oClaude A capacidade de gerar software em tempo real, em que nenhuma funcionalidade é pré-programada e não há código pré-escrito. O usuário vê o Claude O processo de criação e adaptação dinâmica de software com base em interações e solicitações em tempo real.
Essa demonstração mostra de forma vívida a criatividade que pode ser liberada quando os melhores modelos são combinados com a infraestrutura correta. O "Imagine with Claude" estará disponível para os assinantes do Max nos próximos cinco dias.
Como começar
É oficialmente recomendado que todos os usuários atualizem para Claude Sonnet 4.5. Quer você faça isso por meio de um aplicativo, uma API ou Claude Code fazer uso de ClaudeOs novos modelos são uma opção de "substituição direta" com desempenho muito melhor e pelo mesmo preço.
- Para obter detalhes técnicos completos e resultados da análise, consulte o
Claude Sonnet 4.5Cartão de descrição do sistemaepágina do modeloresponder cantandodocumento oficial.
Descrição da metodologia de avaliação
- SWE-bench Verificado: Todos
ClaudeTodos os resultados usam um arquivo que contém obashUm relatório de estrutura simples de duas ferramentas, o Editor de arquivos e o Editor de documentos. A pontuação relatada de 77,2% foi calculada em média em 10 tentativas no conjunto de dados completo de 500 problemas, calculado sem testes, com um orçamento de pensamento de 200 mil tokens. - Banco de terminaisNota: todas as pontuações relatadas usam a estrutura padrão do smartbody (Terminus 2) com um analisador XML, com várias execuções em datas diferentes para suavizar a avaliação da sensibilidade à infraestrutura de inferência.
- AIME:
Sonnet 4.5As pontuações são relatadas em uma temperatura de amostragem de 1,0. O modelo usa 64 mil tokens de inferência na configuração do Python. - OSWorld:: Todas as pontuações relatadas usam o
OSWorld-Verifiedcom uma contagem máxima de etapas de 100, com média de 4 execuções. - MMMLUTodas as pontuações relatadas são médias de 5 execuções em 14 idiomas diferentes do inglês usando raciocínio estendido (até 128K).
- Agente financeiro:: Todas as pontuações são determinadas por Vals AI Execute e publique em suas tabelas de classificação públicas.
- As pontuações dos outros modelos são referenciadas em
OpenAIresponder cantandoGooglede comunicados oficiais ou classificações públicas.






































