Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

Windsurf 发布的软件工程专用模型 SWE-1-1

SWE-1: Lançamento de uma nova geração de modelos de ponta em engenharia de software

Recentemente, a atenção do setor SWE-1 A série de modelos é lançada oficialmente. Projetada para otimizar todo o processo de engenharia de software, a família de modelos visa ir muito além da tarefa tradicional de escrever código.

Atual.SWE-1A família contém três modelos bem posicionados:

  • SWE-1Esse modelo de trabalho é considerado comparável, em termos de capacidade de raciocínio de chamada de ferramenta, ao Claude 3.5 Sonnet Volume equivalente, mas com custos operacionais mais baixos. Durante o período promocional, todos os usuários pagos podem experimentá-lo gratuitamente (0 pontos/dicas de usuário).
  • SWE-1-lite:: Como um modelo leve.SWE-1-liteProjetado para substituir o original por um de melhor qualidade Cascade Base Modelos. Acesso ilimitado para todos os usuários, pagos ou não.
  • SWE-1-miniEste é um modelo compacto e extremamente ágil para todos os usuários do Windsurf Tab As experiências passivas fornecem apoio motivacional.

explorar (um recurso) SWE-1 A motivação para a série é clara: melhorar a eficiência do desenvolvimento de software por meio da 99%. Modelos com apenas "habilidades de codificação" não podem mais atender às necessidades complexas da engenharia de software moderna, porque escrever código é apenas uma parte do ciclo de vida do desenvolvimento de software.

Uma rápida olhada no histórico

Os recursos dos modelos de codificação avançaram significativamente nos últimos anos. As expectativas do setor em relação a esses modelos evoluíram de simples sugestões de preenchimento automático para a capacidade de criar aplicativos simples de forma confiável em uma única passagem.

No entanto, os modelos de codificação existentes mostram suas limitações das seguintes maneiras.

Em primeiro lugar, qualquer desenvolvedor de software concordará que seu tempo não é gasto apenas escrevendo código. A engenharia de software envolve mais tipos de tarefas e uma variedade maior de interfaces de trabalho. Como resultado, as expectativas em relação aos recursos do modelo devem aumentar de acordo. O modelo ideal deve ser capaz não apenas de ler e escrever código, mas também de trabalhar em um terminal, acessar bases de conhecimento externas e a Internet, testar e experimentar produtos e até mesmo entender o feedback do usuário. O trabalho de um desenvolvedor de software é muito mais do que escrever código.

Em segundo lugar, os esforços de desenvolvimento de software normalmente envolvem o avanço em várias interfaces de trabalho ao longo do tempo e por meio de uma série de estados não finais. Atualmente, os principais modelos de base de codificação ainda são treinados para se concentrar principalmente no nível tático - por exemplo, se o código final será compilado e atenderá aos testes de unidade. Mas para os desenvolvedores, o teste de unidade é apenas uma parte de um enorme problema de engenharia. Pode haver várias maneiras de implementar um recurso que pode ser usado no momento, mas há muito menos opções para implementar um recurso excelente que dará suporte a iterações nos próximos anos. Isso explica por que muitos modelos em Cascade As ferramentas podem ter um bom desempenho com orientação iniciada pelo usuário, mas o desempenho diminui significativamente quando o tempo de execução autônomo é estendido. Para atingir um grau mais alto de automação do fluxo de trabalho, essa limitação deve ser superada, ou seja, o modelo precisa ser capaz de compreender toda a complexidade do processo de engenharia: raciocinar em um estado incompleto e lidar com resultados potencialmente ambíguos.

Em algum momento, o simples aprimoramento das habilidades de codificação deixa de proporcionar uma melhoria substancial na capacidade de engenharia de software, tanto para o engenheiro de software quanto para o modelo. O objetivo final é acelerar tudo o que um engenheiro de software pode fazer, de modo que a necessidade de um modelo de "engenharia de software" (ou modelo SWE, para abreviar) está clara há muito tempo.

Detalhe do SWE-1

Com base nos resultados do uso de alta frequência de Windsurf Editor Com os insights obtidos com a plataforma, a equipe de desenvolvimento decidiu criar um novo modelo de dados (linha do tempo compartilhada) e uma metodologia de treinamento que encapsulasse efetivamente estados incompletos, tarefas de longa duração e interações complexas em várias interfaces de trabalho.

O objetivo inicial é demonstrar, por meio dessa abordagem, que mesmo com uma pequena equipe de engenharia e recursos computacionais limitados, o nível de desempenho dos modelos de fronteira pode ser alcançado.SWE-1 é uma prova inicial de conceito para essa ideia.

Em geral.SWE-1 O desempenho é próximo ao de todos os modelos básicos de fronteira. É importante ressaltar que ele supera todos os modelos que não são de fronteira e as alternativas de código aberto. Para fins de benchmarking, foram realizados experimentos de avaliação off-line e de produção cega.

Avaliação off-line

A equipe de P&D irá SWE-1 O desempenho do Anthropic Modelos da série (em Cascade (um dos modelos mais usados na ferramenta) e o principal modelo de codificação de código aberto Deepseek responder cantando Qwen Foram feitas comparações.

Benchmark da tarefa conversacional do SWEO teste é executado a partir de um Cascade A sessão começa no meio do caminho e a tarefa é parcialmente concluída. Avaliação Cascade Como a ferramenta responde à próxima consulta do usuário. Sua pontuação composta de 0 a 10 é uma média ponderada das classificações de utilidade, eficiência e correção do revisor, bem como das métricas de precisão editorial do documento de destino.

Esse benchmark foi projetado para capturar Cascade A natureza exclusiva da colaboração entre homem e computador e da codificação baseada em agentes, que é pioneira na ferramenta. Embora o modelo ainda não seja perfeito, a capacidade de se entrelaçar perfeitamente com a entrada do usuário em tarefas parcialmente concluídas é um indicador importante da utilidade do modelo.

Windsurf lança modelos específicos de engenharia de software SWE-1-2

Referência de tarefa SWE de ponta a pontaO teste começa logo no início do diálogo, avaliando Cascade A capacidade da ferramenta de satisfazer a intenção de entrada por meio de um conjunto selecionado de testes de unidade. Sua pontuação composta de 0 a 10 é uma média ponderada das taxas de aprovação nos testes e das classificações dos revisores.

Esse benchmark foi projetado para capturar a capacidade dos modelos de resolver problemas de ponta a ponta de forma independente. Esse caso de uso está se tornando cada vez mais importante à medida que aumenta a capacidade de todos os modelos operarem sem intervenção humana.

Modelos específicos de engenharia de software lançados pelo Windsurf SWE-1-3

Com base nos resultados da avaliação off-line, pode-se presumir que SWE-1 O desempenho nessas tarefas passou para o nível dos modelos de ponta do Fundamental Modelling Laboratory e é superior aos modelos de tamanho médio e aos modelos de ponta das principais alternativas de código aberto. Embora ainda não esteja no topo absoluto, ele demonstrou potencial para competir com os principais modelos.

Experimentos em ambiente de produção

Contando com uma grande comunidade de usuários, foram realizados experimentos em ambiente de produção para complementar os resultados da avaliação off-line. Para calcular essas métricas diárias, foi realizado um experimento de teste cego no qual alguns usuários participaram sem saber o modelo que estavam usando. O modelo de teste foi mantido constante para cada usuário a fim de medir seu uso repetido ao longo do tempo.

Os experimentos foram incluídos no Claude modelos como referências, já que historicamente foram e continuam sendo os Cascade O modelo mais comumente usado na ferramenta.

Linhas diárias contribuídas por usuárioMedição da quantidade de tempo gasto em um período fixo de tempo pelo usuário Cascade O número médio de linhas de código escritas pela ferramenta e ativamente aceitas e retidas pelos usuários. Esse é um indicador abrangente e útil tanto da utilidade da contribuição do modelo cada vez que ele é invocado quanto da disposição dos usuários de continuar usando o modelo ao longo do tempo.

Esse é considerado um indicador altamente indicativo do equilíbrio entre a proatividade e a qualidade da consultoria, além de refletir a velocidade da produção e a capacidade de resposta ao feedback, que se combinam para levar os usuários a "voltar".

Modelos específicos de engenharia de software lançados pelo Windsurf SWE-1-4

Taxa de contribuição do CascadePara o menor número de pessoas que foram Cascade arquivos que foram editados uma vez pela ferramenta, essa métrica calcula o número de arquivos do Cascade Porcentagem de alterações na ferramenta. Essa é uma medida de utilidade, normalizada para a frequência com que o modelo é usado pelo usuário e a disposição do modelo em contribuir com o código. Como essa métrica mede apenas os arquivos editados pelo modelo, ela tenta controlar os efeitos da frequência de uso e da propensão à edição de modelos.

Modelos específicos de engenharia de software lançados pelo Windsurf SWE-1-5

SWE-1 Destina-se a usuários com Cascade Os padrões de interação da ferramenta foram criados e otimizados, portanto, não é de surpreender que seu desempenho nesses experimentos de produção tenha sido próximo do líder do setor.

Outros modelos e análises

No gráfico acima, oSWE-1-lite atuar como SWE-1 Uma versão de escala média do modelo, construída usando a mesma metodologia de treinamento. Ele lidera todos os outros modelos de escala média que não são de fronteira e substituirá o modelo original Cascade Base para ser uma opção de uso ilimitado para todos os usuários.Cascade Base Anteriormente usado como uma opção de modelo básico para fornecer aos usuários assistência de codificação abrangente, o SWE-1-lite As atualizações trazem melhor qualidade e desempenho.

Além disso, um terceiro modelo foi construído SWE-1-mini. Ele compartilha grande parte da metodologia de treinamento em torno da percepção de fluxo, mas é pequeno o suficiente para operar dentro das restrições de latência de um sistema de previsão passiva e é treinado ainda mais para tarefas de ação preditiva (em vez de chamadas de ferramentas). Esse sistema de previsão passiva é capaz de antecipar e auxiliar o usuário de forma inteligente enquanto ele está codificando, por exemplo, em Windsurf Tab A experiência permite que ele analise silenciosamente o contexto em segundo plano e dê conselhos no momento certo.

É preciso deixar claro que isso é apenas o começo. Em última análise, na engenharia de software, a meta não é apenas igualar o desempenho dos modelos de ponta de qualquer laboratório de pesquisa, mas superá-los. Há mais motivos do que nunca para acreditar que o mecanismo para impulsionar essa meta está pronto, e o futuro será fortemente investido nessa estratégia.

Tecnologia principal: sistema com reconhecimento de fluxo

Foi mencionado anteriormente que "com base nos dados do uso de alta frequência do Windsurf Editor percepções obtidas com a plataforma". É necessário explicar Windsurf Editor Como a plataforma contribuiu para a SWE-1 e por que ela está confiante de que seu modelo será o melhor.

A chave é como obter uma iteração incremental: consciência do fluxo.

O que é conscientização de processos? Construindo Windsurf Editor A plataforma foi projetada para criar um entrelaçamento perfeito entre os estados combinados do usuário e da IA; tudo o que a IA faz, o ser humano deve ser capaz de observar e manipular; e, da mesma forma, tudo o que o ser humano faz, a IA deve ser capaz de observar e manipular. Essa percepção de uma linha do tempo compartilhada é chamada de "consciência de fluxo", e é por isso que a experiência do agente colaborativo foi chamada de "fluxos de IA".

Por que é fundamental um editor que ofereça suporte à conscientização do processo? Em termos simples, levará algum tempo até que qualquer modelo SWE possa realmente fazer todo o seu trabalho sozinho. Nessa transição, a conscientização do processo permite a forma correta de interação: fazer uso total dos recursos existentes do modelo, permitindo que os seres humanos intervenham para corrigi-lo quando der errado e, em seguida, o modelo pode continuar a ser construído com base nas ações humanas. Isso permite uma transição natural e sem interrupções.

Isso significa que, a qualquer momento, ao observar as etapas concluídas pelo modelo com e sem intervenção do usuário na linha do tempo compartilhada, oWindsurf A equipe está sempre ciente dos verdadeiros limites de capacidade do modelo atual. Ela é capaz de obter uma visão precisa e em larga escala de onde os usuários querem que seus modelos cheguem em termos de aprimoramento. É esse mecanismo que permite a criação rápida de modelos de acordo com as necessidades atuais. SWE-1 e, portanto, confiantes de que o melhor modelo absoluto de SWE será construído.

Na verdade, quer tenha sido notado ou não, a criação de linhas do tempo compartilhadas sempre foi a Cascade A visão orientadora por trás de muitos dos principais recursos da ferramenta:

  • existir Cascade Quando a ferramenta foi lançada, um dos recursos enfatizados foi a capacidade de os usuários fazerem algumas edições em um editor de texto e depois Cascade Digite "continue" no campoCascade Em seguida, ele integra automaticamente as edições feitas pelo usuário.Isso reflete a percepção de um editor de texto.
  • Logo depois, as saídas do terminal também foram integradas ao sentido do processo, permitindo que o Cascade A ferramenta detecta perfeitamente os erros que o usuário encontra ao executar o código.Isso reflete a percepção do terminal.
  • existir Wave 4 Nesta versão, o conceito de Pré-visualizações foi introduzido para tornar o Cascade A ferramenta é capaz de desenvolver uma compreensão dos componentes ou bugs de front-end com os quais o usuário está interagindo e nos quais está interessado.Isso reflete uma percepção básica do navegador.

No entanto.Windsurf na plataformatudosão construídos com base no conceito de conscientização do processo, e não apenas na Cascade Ferramentas.Tab também foi criada com base no mesmo conceito de linha do tempo compartilhada. Ao enviar uma mensagem para o Cascade Quando a ferramenta adiciona contexto, na verdade ela está adicionando contexto ao Tab Adicione contexto. Não se trata simplesmente de colocar mais informações aleatoriamente em uma janela de contexto fixo, mas de construir cuidadosamente uma linha do tempo compartilhada que reflita melhor o comportamento e as metas do usuário. É por isso que sua versão do Tab As seguintes características estão disponíveis:

  • Detecção dos comandos do terminal do usuário (Onda 5)
  • Detecta o que o usuário copiou da área de transferência (Wave 5)
  • Detecção da corrente Cascade Diálogo (Onda 5)
  • Detectando a pesquisa do usuário no IDE (Onda 6)

O lançamento não é um recurso aleatório. Ele foi dedicado a criar a representação mais rica da linha do tempo compartilhada do trabalho de engenharia de software. Mesmo ao usar modelos prontos para uso, suas ferramentas foram significativamente aprimoradas pela simples presença de informações na linha do tempo compartilhada. E agora, com o modelo SWE desenvolvido por ele mesmo, é possível realmente dar o pontapé inicial no volante: permitir que o modelo digira a linha do tempo e comece a agir em uma linha do tempo cada vez mais ampla.

perspectivas futuras

Conforme mencionado anteriormente.SWE-1 Essa conquista foi possível graças a uma equipe pequena, mas altamente dedicada, que se baseou em seus pontos fortes como empresa de produtos e infraestrutura. Ela representa a primeira tentativa de criar um modelo de qualidade realmente de ponta e, embora esteja orgulhosa dos resultados, está ciente de que isso é apenas o começo. O poder de seu aplicativo exclusivo, sistema e flywheel de modelo já foi enfatizado - um recurso que até mesmo o próprio laboratório de modelo subjacente pode não ter na ausência da escala do nível do aplicativo e dos insights derivados da atividade em que ele opera.

O futuro continuará a ouvir falar de SWE Notícias sobre melhorias na família de modelos. Mais investimentos serão feitos para oferecer o melhor desempenho e o menor custo aos usuários, para que eles possam continuar a usar o Windsurf A plataforma cria projetos maiores e melhores.

0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil