O TankWork é uma estrutura inovadora de agente de desktop de código aberto cujo valor central está no controle autônomo de computadores por IA por meio da tecnologia de interação multimodal. A estrutura usa a visão computacional e a interação em nível de sistema como suporte técnico subjacente, de modo que a IA possa não apenas perceber os comandos do usuário, mas também operar ativamente o computador para concluir várias tarefas. Em comparação com o modo único de controle de script tradicional, o TankWork realiza a interação paralela de três canais de voz, texto e visão, na qual a interação de voz adota a tecnologia de processamento de linguagem natural da ElevenLabs, os comandos de texto suportam entrada em vários idiomas e a visão computacional pode analisar o conteúdo da tela em tempo real. Essa solução integrada é particularmente adequada para cenários que exigem colaboração entre humanos e computadores com alta frequência, como testes de desenvolvedores, análise de dados de pesquisadores e outros cenários de trabalho.
Em termos de arquitetura técnica, a maior inovação do TankWork está em seu sistema de feedback de ciclo fechado: o sistema fornecerá feedback operacional em tempo real por meio de registros visuais e de voz após a execução de comandos, formando um fluxo de trabalho completo de "comando-execução-feedback". Atualmente, o projeto é de código aberto na plataforma GitHub sob a licença MIT, e a comunidade pode acessar o código completo e contribuir por meio do repositório AgentTankOS/tankwork.
Essa resposta foi extraída do artigoTankWork: um corpo inteligente que opera computadores por meio de voz e texto e fornece feedback de voz em tempo realO































