Posição atual:fig. início » Tutoriais práticos de IA

Linguagem natural para controle de terminal: Guia prático e jogabilidade avançada do Gemini CLI

2025-07-02

1.4 K

Recentemente, após Claude Code Após a atenção gerada por ferramentas como o Google, o Google também lançou sua contraparte gratuita Gemini CLI. Essa ferramenta foi projetada para integrar recursos avançados de IA generativa diretamente no terminal de linha de comando, abrindo novas possibilidades para o processamento automatizado de tarefas e o gerenciamento local de arquivos.

IA de linha de comando: um novo paradigma para a interação humano-computador

与 Cursor Esses ambientes de desenvolvimento integrado (IDEs) nativos de IA são diferentes.Gemini CLI Não há interface gráfica do usuário (GUI) com suas contrapartes. Todas as interações são feitas no Terminal por meio de comandos de texto. Esse posicionamento faz com que ele não seja um software de programação fechado, mas um assistente de IA de uso geral que pode manipular arquivos locais e invocar funções do sistema.

Seu principal ponto forte é que ele atua como um "tradutor" entre a linguagem natural e as ferramentas tradicionais de linha de comando. Os usuários podem dar comandos em linguagem cotidiana, enquanto o Gemini CLI Ele é responsável por gerar e executar o código de linha de comando adequado e preciso. Ele tem pesquisa integrada no Google, leitura e gravação de arquivos, localização de conteúdo e outras ferramentas básicas. Os usuários podem digitar /tools para ver todos os recursos integrados atualmente suportados pelo modelo.

Além disso.Gemini CLI apoiar algo MCP (Model Capability Pack), que permite que os desenvolvedores ou usuários avançados instalem kits de ferramentas adicionais para ampliar sua funcionalidade e melhorar ainda mais a capacidade do modelo de lidar com tarefas complexas.

Fácil de usar para quem não é programador

Para usuários não familiarizados com programação, a "linha de comando" geralmente implica complexidade e um limite alto. No entanto, usar a Gemini CLI A interação principal é digitar prompts de linguagem natural, não escrever código. Isso significa que a experiência não é fundamentalmente diferente das ferramentas comuns de diálogo de IA, desde que o ambiente de rede garanta um login tranquilo.

Instalação e configuração em duas etapas

Todas as demonstrações neste guia são baseadas no Terminal que acompanha o macOS. Embora a maioria das ações seja comum aos sistemas Windows, estes últimos podem encontrar mais problemas ambientais durante a configuração.

Etapa 1: Preparar o catálogo de trabalho

Antes de começar, é altamente recomendável criar uma nova pasta dedicada para todo o material necessário para este trabalho. Essa é uma boa prática de segurança para garantir que Gemini CLI Todas as operações de arquivo são restritas a esse diretório para evitar impacto não intencional em arquivos importantes do sistema.

Depois de preparar a pasta, abra o aplicativo Terminal e digite cd (cd seguido de um espaço), cole o caminho para a pasta e pressione Enter. Dessa forma, todas as operações subsequentes ocorrerão nesse ambiente seguro de "sandbox".

Etapa 2: Instalar e iniciar a CLI do Gemini

Em uma janela de terminal, execute o seguinte comando:

npx https://github.com/google-gemini/gemini-cli

O npx é uma ferramenta útil que fará o download temporário e executará o Gemini CLIsem instalá-lo permanentemente em seu sistema. Isso é perfeito para uma primeira tentativa ou uso único.

Após a instalação bem-sucedida, será solicitado que você selecione um tema de cor para a interface e que faça login por meio da sua conta do Google. No terminal, as opções geralmente são selecionadas usando as teclas de seta para cima e para baixo do teclado e confirmadas pressionando a tecla Enter. Depois de concluir a autorização da Web, você poderá ver a caixa de entrada da palavra prompt, o que significa que a instalação foi bem-sucedida.

Se for desejada uma instalação permanente para permitir a instalação futura com um simples gemini para iniciá-lo diretamente, você pode executar o seguinte comando. No entanto, isso exigirá uma explicação da função npm Algum conhecimento sobre gerenciamento de pacotes.

npm install -g @google/gemini-cli

Para os usuários que não estão familiarizados com a interface em inglês, você pode usar a opção Bob A ferramenta traduz prompts no terminal a qualquer momento, como uma ferramenta de tradução de traços.

Aplicativos funcionais básicos: gerenciamento de documentos locais e de conhecimento

Gemini CLI s e as permissões de manipulação de arquivos o tornam excelente para trabalhar com documentos e imagens locais.

Geração e análise de documentos

Gemini CLI A capacidade de invocar a pesquisa do Google para obter informações e gerar novos relatórios em conjunto com documentos locais. Por exemplo, ele pode ser instruído a pesquisar tópicos específicos e reunir arquivos Markdown locais.

请使用 Google 搜索功能，查找关于‘量子计算最新突破’的资料，阅读我本地 /research/papers 目录下的相关文档，然后为我生成一份 Markdown 格式的综合报告，并存为 quantum_computing_report.md。

Ele é igualmente hábil em analisar, reescrever e resumir documentos existentes. Por exemplo, reescrever um artigo técnico em um blog fácil de entender ou extrair as principais decisões e tarefas das atas de reuniões.

根据 Andrej Karpathy 的《软件3.0》分享文章，将其改写成一篇约 800 字的博客文章，风格要求轻松有趣。然后，为这篇文章生成 3 个适合在 Twitter 上发布的推文版本，并附上 #AI #Tech 标签。

Automação da base de conhecimento da Obsidian

com relação a Obsidian Usuários.Gemini CLI pode ser uma poderosa ferramenta de gerenciamento de bases de conhecimento. Isso é feito por meio da criação de uma base de conhecimento no Obsidian O lançamento a partir do diretório raiz da biblioteca permite o processamento profundo das anotações.

Por exemplo, ele pode ser instruído a recuperar todas as informações sobre um determinado tópico (como o MCP) e gera uma nota indexada com links bidirecionais para navegação e revisão rápidas.

检索当前文件夹下所有关于“MCP”的剪藏文章，生成一份新的 Markdown 文档。文档内容需使用无序列表总结每篇文章的核心观点，并在每条总结后附上指向原文的 Markdown 链接。

Obsidian depende de links bidirecionais entre as notas. Adicionar links manualmente é uma tarefa tediosa. Agora, essa tarefa pode ser automatizada.Gemini CLI A capacidade de analisar os títulos e o conteúdo de todas as notas em uma pasta e adicionar automaticamente links bidirecionais a notas relacionadas, criando assim uma estrutura de conhecimento semelhante à da Web.

分析当前文件夹下所有文档的标题和正文，为内容相关的文档批量添加双向链接，以便在 Obsidian 中生成知识图谱。

Reconhecimento e processamento de conteúdo de imagem

Com base em seus recursos multimodais, oGemini CLI A capacidade de "ver" e entender o conteúdo de uma imagem. Isso possibilita o processamento em lote de imagens locais. Por exemplo, é possível analisar uma pasta de imagens com nomes confusos e renomeá-las em lote de acordo com seu conteúdo.

分析当前文件夹下的所有图片，并根据每张图片的核心内容对其进行批量重命名。

A marcação de imagens (geração de texto descritivo) é uma etapa fundamental no treinamento de modelos de mapeamento de IA.Gemini CLI É possível automatizar esse processo gerando um texto de descrição detalhado para cada imagem e salvando-o com o mesmo nome da imagem .txt que é totalmente compatível com o conjunto de treinamento padrão.

分析此文件夹中的所有图像，为每张图生成一段详细的描述（包括内容、风格、构图），并将描述文字存放在与图像同名的文本文件中。

Configuração do sistema e organização de arquivos

Gemini CLI A capacidade de executar comandos do sistema significa que ele pode criar scripts de fluxo de trabalho automatizados. Os usuários podem definir seus próprios "modos de trabalho profundo" para fechar aplicativos que causam distração, abrir software de trabalho e ajustar o volume do sistema com um único clique.

创建一个名为 `deep_work.sh` 的 Shell 脚本。该脚本需执行以下操作：1. 打开 Obsidian；2. 关闭所有浏览器和通讯软件；3. 开启系统‘勿扰模式’；4. 播放我本地 `/music/focus` 文件夹中的白噪音。

Da mesma forma, ele pode ajudar a organizar pastas desorganizadas, criando automaticamente subpastas e agrupando-as de acordo com os tipos de arquivos.

在当前目录下新建“Images”和“Captions”两个文件夹，然后将所有的图片文件移动到“Images”，所有文本文档移动到“Captions”。

Aplicativos avançados: como conduzir ferramentas profissionais de linha de comando

Gemini CLI O verdadeiro potencial está em sua capacidade de atuar como uma interface de linguagem natural para ferramentas profissionais de linha de comando que são poderosas, mas não têm uma interface gráfica. Isso reduz significativamente o nível das tarefas profissionais, como processamento de vídeo, edição de imagens e conversão de documentos.

No macOS, a maioria dessas ferramentas pode ser acessada por meio do Homebrew(um gerenciador de pacotes popular) para instalar. É possível fazer Gemini CLI Primeiro, para ajudá-lo a instalá-lo:

请帮我安装 Homebrew 并配置好环境变量。

Utilizar `ffmpeg` Permite a edição de vídeo de nível profissional

ffmpeg é uma estrutura de processamento de áudio e vídeo de código aberto que é o núcleo subjacente de muitos softwares comerciais de edição de vídeo. Depois de instalá-lo, tarefas complexas de edição de vídeo podem ser realizadas em linguagem natural.

Em primeiro lugar, use o Gemini CLI montagem ffmpeg：

请使用 Homebrew 帮我安装 ffmpeg。

Após a conclusão da instalação, você pode executar as seguintes tarefas:

Adicione uma marca d'água: 请用 ffmpeg 为视频 "input.mp4" 在右上角添加一个透明度为 10% 的文字水印，内容为 "guizang"，并另存为新视频。
Vídeo para GIF: 请用 ffmpeg 将文件夹中的 "input.mp4" 转换为一个高品质的 GIF 动图。
Substitua a trilha de áudio: 请用 ffmpeg 将 "video.mp4" 和 "audio.mp3" 合并，确保音频长度与视频匹配，并在开头和结尾处添加淡入淡出效果。
Extrair quadros de sequência: 请用 ffmpeg 将 "video.mp4" 转换为 PNG 序列帧，并存放在一个新的文件夹中。

Utilizar `yt-dlp` Download de vídeo on-line

yt-dlp é uma poderosa ferramenta de download de vídeo on-line. Por Gemini CLI Instale e use-o para baixar facilmente vídeos específicos e suas capas.

请使用 Homebrew 安装 yt-dlp。

请使用 yt-dlp 下载这个视频链接 [此处粘贴链接] 以及它的高清封面。

Utilizar `ImageMagick` Realizar processamento avançado de imagens

ImageMagick É o campo de processamento de imagens de ffmpeg. Trata-se de um conjunto de ferramentas repleto de recursos para conversão de formatos, dimensionamento, corte, filtros, união de imagens e muito mais.

Novamente, instale primeiro:

请使用 Homebrew 安装 ImageMagick。

O processamento de imagens em lote está disponível após a instalação:

Redimensione em lote e adicione marcas d'água: 请使用 ImageMagick 将当前文件夹下所有图片的宽边统一调整为 800 像素，并添加一个灰色的“Internal Use Only”半透明水印，然后将处理后的图片保存在新文件夹中。
Costura de imagens: 请用 ImageMagick 将处理过的四张图片拼合成一张 2x2 的四宫格图，图片之间保留白色分隔。

Utilizar `Pandoc` Obter conversão universal de documentos

Pandoc Ele é conhecido como o "canivete suíço" da conversão de formatos de documentos. Ele pode desempenhar um papel importante ao lidar com diferentes formatos de documentos de escritório.

请使用 Homebrew 安装 Pandoc。

Depois de instalado, é fácil de colocar Markdown O arquivo é convertido para Word e mantém a maior parte da formatação.

请使用 Pandoc 将 "Andrej Karpathy 软件 3.0 分享.md" 这个 Markdown 文档转换为 Word (.docx) 格式。

Gemini CLI O surgimento da tecnologia de processamento de dados da Microsoft valida uma tendência importante: os modelos de linguagem em larga escala estão se tornando a interface universal que conecta as intenções humanas às complexas instruções das máquinas. As ferramentas especializadas que antes eram excluídas do usuário comum devido à sua complexidade operacional agora estão se tornando acessíveis por meio da linguagem natural.

Essa mudança não é apenas um aumento na eficiência, mas também uma dissolução das barreiras ao uso da tecnologia. Nesse novo paradigma de interação, a imaginação do usuário, em vez de suas habilidades de programação, será a chave para liberar o potencial da computação.

Não pode ser reproduzido sem permissão:Ferramentas de produtividade de IA » Linguagem natural para controle de terminal: Guia prático e jogabilidade avançada do Gemini CLI

Linguagem natural para controle de terminal: Guia prático e jogabilidade avançada do Gemini CLI

IA de linha de comando: um novo paradigma para a interação humano-computador

Fácil de usar para quem não é programador

Instalação e configuração em duas etapas

Aplicativos funcionais básicos: gerenciamento de documentos locais e de conhecimento

Geração e análise de documentos

Automação da base de conhecimento da Obsidian

Reconhecimento e processamento de conteúdo de imagem

Configuração do sistema e organização de arquivos

Aplicativos avançados: como conduzir ferramentas profissionais de linha de comando

Utilizar `ffmpeg` Permite a edição de vídeo de nível profissional

Utilizar `yt-dlp` Download de vídeo on-line

Utilizar `ImageMagick` Realizar processamento avançado de imagens

Utilizar `Pandoc` Obter conversão universal de documentos

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Linguagem natural para controle de terminal: Guia prático e jogabilidade avançada do Gemini CLI

IA de linha de comando: um novo paradigma para a interação humano-computador

Fácil de usar para quem não é programador

Instalação e configuração em duas etapas

Aplicativos funcionais básicos: gerenciamento de documentos locais e de conhecimento

Geração e análise de documentos

Automação da base de conhecimento da Obsidian

Reconhecimento e processamento de conteúdo de imagem

Configuração do sistema e organização de arquivos

Aplicativos avançados: como conduzir ferramentas profissionais de linha de comando

Utilizar ffmpeg Permite a edição de vídeo de nível profissional

Utilizar yt-dlp Download de vídeo on-line

Utilizar ImageMagick Realizar processamento avançado de imagens

Utilizar Pandoc Obter conversão universal de documentos

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida

Utilizar `ffmpeg` Permite a edição de vídeo de nível profissional

Utilizar `yt-dlp` Download de vídeo on-line

Utilizar `ImageMagick` Realizar processamento avançado de imagens

Utilizar `Pandoc` Obter conversão universal de documentos