Kürzlich, nach Claude Code
Nach dem Aufsehen, das Tools wie Google erregt haben, hat Google auch sein kostenloses Pendant auf den Markt gebracht Gemini CLI
. Dieses Tool wurde entwickelt, um leistungsstarke generative KI-Funktionen direkt in das Kommandozeilenterminal zu integrieren, was neue Möglichkeiten für die automatisierte Aufgabenverarbeitung und die lokale Dateiverwaltung eröffnet.
Befehlszeilen-KI: ein neues Paradigma für die Interaktion zwischen Mensch und Computer
zusammen mit Cursor
Solche KI-nativen integrierten Entwicklungsumgebungen (IDEs) sind anders.Gemini CLI
Es gibt keine grafische Benutzeroberfläche (GUI) wie bei seinen Gegenstücken. Alle Interaktionen werden im Terminal über Textbefehle ausgeführt. Durch diese Positionierung handelt es sich nicht um eine geschlossene Programmiersoftware, sondern um einen universellen KI-Assistenten, der lokale Dateien manipulieren und Systemfunktionen aufrufen kann.
Seine Hauptstärke liegt darin, dass es als "Übersetzer" zwischen natürlicher Sprache und traditionellen Befehlszeilen-Tools fungiert. Die Benutzer können Befehle in Alltagssprache geben, während die Gemini CLI
Es ist für die Generierung und Ausführung des entsprechenden und präzisen Befehlszeilencodes verantwortlich. Es verfügt über eine integrierte Google-Suche, das Lesen und Schreiben von Dateien, das Auffinden von Inhalten und andere grundlegende Werkzeuge. Benutzer können Folgendes eingeben /tools
um alle eingebauten Funktionen zu sehen, die derzeit von dem Modell unterstützt werden.
Darüber hinaus.Gemini CLI
etw. unterstützen MCP
(Model Capability Pack), das es Entwicklern oder fortgeschrittenen Anwendern ermöglicht, zusätzliche Toolkits zu installieren, um die Funktionalität zu erweitern und die Fähigkeit des Modells, komplexe Aufgaben zu bewältigen, weiter zu verbessern.
Einfach zu bedienen für Nicht-Programmierer
Für Benutzer, die mit der Programmierung nicht vertraut sind, bedeutet die "Kommandozeile" oft Komplexität und eine hohe Schwelle. Die Verwendung der Gemini CLI
Die Hauptinteraktion besteht in der Eingabe von Aufforderungen in natürlicher Sprache, nicht im Schreiben von Code. Das bedeutet, dass sich die Erfahrung nicht grundlegend von herkömmlichen KI-Dialogtools unterscheidet, solange die Netzwerkumgebung eine reibungslose Anmeldung gewährleistet.
Installation und Konfiguration in zwei Schritten
Alle Demonstrationen in diesem Leitfaden basieren auf dem Terminal, das mit macOS geliefert wird. Während die meisten Aktionen auch für Windows-Systeme gelten, können bei letzteren während der Konfiguration mehr Umgebungsprobleme auftreten.
Schritt 1: Vorbereiten des Arbeitskatalogs
Es wird dringend empfohlen, vor Beginn der Arbeit einen neuen Ordner für das gesamte Material zu erstellen, das für diese Aufgabe benötigt wird. Dies ist eine gute Sicherheitspraxis, um sicherzustellen, dass Gemini CLI
Alle Dateioperationen sind auf dieses Verzeichnis beschränkt, um unbeabsichtigte Auswirkungen auf wichtige Systemdateien zu vermeiden.
Sobald Sie den Ordner vorbereitet haben, öffnen Sie die Anwendung Terminal und geben Sie cd
(cd gefolgt von einem Leerzeichen), fügen Sie dann den Pfad zum Ordner ein und drücken Sie die Eingabetaste. Auf diese Weise finden alle nachfolgenden Operationen in dieser sicheren "Sandbox"-Umgebung statt.
Schritt 2: Installieren und Starten der Gemini CLI
Führen Sie in einem Terminalfenster den folgenden Befehl aus:
npx https://github.com/google-gemini/gemini-cli
Die npx
ist ein praktisches Werkzeug, das vorübergehend die Gemini CLI
ohne es dauerhaft in Ihrem System zu installieren. Dies ist perfekt für einen ersten Versuch oder eine einmalige Verwendung.
Nach erfolgreicher Installation werden Sie aufgefordert, ein Farbthema für die Benutzeroberfläche auszuwählen und sich über Ihr Google-Konto anzumelden. Im Terminal werden die Optionen in der Regel mit den Auf- und Ab-Pfeiltasten der Tastatur ausgewählt und mit der Eingabetaste bestätigt. Nach Abschluss der Webautorisierung sehen Sie das Eingabefeld mit der Aufforderung zur Worteingabe, was bedeutet, dass die Installation erfolgreich war.
Wenn eine dauerhafte Installation gewünscht wird, um eine zukünftige Installation mit einem einfachen gemini
um es direkt zu starten, können Sie den folgenden Befehl ausführen. Dies erfordert jedoch eine Erklärung der npm
Ein gewisses Verständnis der Paketverwaltung.
npm install -g @google/gemini-cli
Für Benutzer, die mit der englischen Schnittstelle nicht vertraut sind, können Sie die Vorteile der Bob
Das Tool übersetzt jederzeit Eingabeaufforderungen im Terminal, wie z. B. ein Strichübersetzungs-Tool.
Grundlegende funktionale Anwendungen: Lokales Dokumenten- und Wissensmanagement
Gemini CLI
Dank der multimodalen Fähigkeiten und der Berechtigungen zur Dateibearbeitung eignet sich die Software hervorragend für die Arbeit mit lokalen Dokumenten und Bildern.
Erstellung und Analyse von Dokumenten
Gemini CLI
Die Fähigkeit, die Google-Suche nach Informationen aufzurufen und neue Berichte in Verbindung mit lokalen Dokumenten zu erstellen. Zum Beispiel kann es angewiesen werden, bestimmte Themen zu recherchieren und lokale Markdown-Dateien zusammenzustellen.
请使用 Google 搜索功能,查找关于‘量子计算最新突破’的资料,阅读我本地 /research/papers 目录下的相关文档,然后为我生成一份 Markdown 格式的综合报告,并存为 quantum_computing_report.md。
Ebenso gut kann es vorhandene Dokumente analysieren, umschreiben und zusammenfassen. Zum Beispiel kann ein technischer Artikel in einen leicht verständlichen Blog umgeschrieben oder wichtige Entscheidungen und Aufgabenlisten aus Sitzungsprotokollen extrahiert werden.
根据 Andrej Karpathy 的《软件3.0》分享文章,将其改写成一篇约 800 字的博客文章,风格要求轻松有趣。然后,为这篇文章生成 3 个适合在 Twitter 上发布的推文版本,并附上 #AI #Tech 标签。
Obsidian Wissensdatenbank Automatisierung
in Bezug auf Obsidian
Benutzer.Gemini CLI
kann ein leistungsfähiges Werkzeug zur Verwaltung von Wissensdatenbanken sein. Erreicht wird dies durch die Erstellung einer Wissensdatenbank in der Obsidian
Der Start aus dem Stammverzeichnis der Bibliothek ermöglicht eine tiefgreifende Bearbeitung von Notizen.
Es kann zum Beispiel angewiesen werden, alle Informationen zu einem bestimmten Thema abzurufen (z. B. die MCP
) Artikel und erzeugt eine indizierte Notiz mit wechselseitigen Links für eine schnelle Navigation und Überprüfung.
检索当前文件夹下所有关于“MCP”的剪藏文章,生成一份新的 Markdown 文档。文档内容需使用无序列表总结每篇文章的核心观点,并在每条总结后附上指向原文的 Markdown 链接。
Obsidian
Die Knowledge-Graph-Funktion basiert auf bidirektionalen Verknüpfungen zwischen Notizen. Das manuelle Hinzufügen von Links ist eine mühsame Aufgabe. Jetzt kann diese Aufgabe automatisiert werden.Gemini CLI
Die Möglichkeit, die Titel und Inhalte aller Notizen in einem Ordner zu analysieren und automatisch wechselseitige Links zu Notizen hinzuzufügen, die miteinander in Beziehung stehen, um so eine webähnliche Wissensstruktur aufzubauen.
分析当前文件夹下所有文档的标题和正文,为内容相关的文档批量添加双向链接,以便在 Obsidian 中生成知识图谱。
Erkennung und Verarbeitung von Bildinhalten
Aufgrund seiner multimodalen Fähigkeiten kann dasGemini CLI
Die Fähigkeit, den Inhalt eines Bildes zu "sehen" und zu verstehen. Dies ermöglicht die Stapelverarbeitung lokaler Bilder. So ist es beispielsweise möglich, einen Ordner mit verwirrend benannten Bildern zu analysieren und sie im Stapelverfahren entsprechend ihrem Inhalt umzubenennen.
分析当前文件夹下的所有图片,并根据每张图片的核心内容对其进行批量重命名。
Das Tagging von Bildern (die Erstellung von beschreibendem Text) ist ein wichtiger Schritt beim Training von KI-Kartierungsmodellen.Gemini CLI
Es ist möglich, diesen Prozess zu automatisieren, indem man einen detaillierten Beschreibungstext für jedes Bild erstellt und ihn unter demselben Namen wie das Bild speichert .txt
Datei, die vollständig mit dem Standard-Trainingssatz konform ist.
分析此文件夹中的所有图像,为每张图生成一段详细的描述(包括内容、风格、构图),并将描述文字存放在与图像同名的文本文件中。
Systemeinrichtung und Dateiorganisation
Gemini CLI
Die Fähigkeit, Systembefehle auszuführen, bedeutet, dass automatische Workflow-Skripte erstellt werden können. Benutzer können ihre eigenen "tiefen Arbeitsmodi" definieren, um ablenkende Anwendungen zu schließen, Arbeitssoftware zu öffnen und die Systemlautstärke mit einem einzigen Klick anzupassen.
创建一个名为 `deep_work.sh` 的 Shell 脚本。该脚本需执行以下操作:1. 打开 Obsidian;2. 关闭所有浏览器和通讯软件;3. 开启系统‘勿扰模式’;4. 播放我本地 `/music/focus` 文件夹中的白噪音。
Ebenso kann es helfen, unordentliche Ordner zu organisieren, indem es automatisch Unterordner erstellt und sie nach Dateitypen gruppiert.
在当前目录下新建“Images”和“Captions”两个文件夹,然后将所有的图片文件移动到“Images”,所有文本文档移动到“Captions”。
Fortgeschrittene Anwendungen: Professionelle Kommandozeilen-Tools fahren
Gemini CLI
Das eigentliche Potenzial liegt in seiner Fähigkeit, als natürlichsprachliche Schnittstelle zu professionellen Befehlszeilen-Tools zu fungieren, die zwar leistungsstark sind, aber keine grafische Oberfläche haben. Dies senkt die Hürde für professionelle Aufgaben wie Videoverarbeitung, Bildbearbeitung und Dokumentenkonvertierung erheblich.
Unter macOS kann auf die meisten dieser Werkzeuge über das Homebrew
(ein beliebter Paketmanager) zu installieren. Es ist möglich, die Gemini CLI
Erstens, um Ihnen bei der Installation zu helfen:
请帮我安装 Homebrew 并配置好环境变量。
nutzen. ffmpeg
Ermöglicht professionelle Videobearbeitung
ffmpeg
ist ein Open-Source-Framework für die Audio- und Videobearbeitung, das den Kern vieler kommerzieller Videobearbeitungssoftware darstellt. Nach der Installation können komplexe Videobearbeitungsaufgaben in natürlicher Sprache erledigt werden.
Verwenden Sie erstens die Gemini CLI
Montage ffmpeg
::
请使用 Homebrew 帮我安装 ffmpeg。
Nachdem die Installation abgeschlossen ist, können Sie die folgenden Aufgaben durchführen:
- Hinzufügen eines Wasserzeichens:
请用 ffmpeg 为视频 "input.mp4" 在右上角添加一个透明度为 10% 的文字水印,内容为 "guizang",并另存为新视频。
- Video zu GIF:
请用 ffmpeg 将文件夹中的 "input.mp4" 转换为一个高品质的 GIF 动图。
- Ersetzen Sie die Tonspur:
请用 ffmpeg 将 "video.mp4" 和 "audio.mp3" 合并,确保音频长度与视频匹配,并在开头和结尾处添加淡入淡出效果。
- Sequenzrahmen extrahieren:
请用 ffmpeg 将 "video.mp4" 转换为 PNG 序列帧,并存放在一个新的文件夹中。
nutzen. yt-dlp
Online-Video herunterladen
yt-dlp
ist ein leistungsstarkes Online-Video-Download-Tool. Von Gemini CLI
Installieren Sie das Programm und laden Sie bestimmte Videos und ihre Cover herunter.
请使用 Homebrew 安装 yt-dlp。
请使用 yt-dlp 下载这个视频链接 [此处粘贴链接] 以及它的高清封面。
nutzen. ImageMagick
Erweiterte Bildverarbeitung durchführen
ImageMagick
Es ist der Bereich der Bildverarbeitung der ffmpeg
. Es ist ein funktionsreiches Toolset für Formatkonvertierung, Skalierung, Zuschneiden, Filter, Bildzusammenfügen und mehr.
Auch hier gilt: erst installieren:
请使用 Homebrew 安装 ImageMagick。
Die Stapelverarbeitung von Bildern ist nach der Installation verfügbar:
- Stapelweise Größenänderung und Hinzufügen von Wasserzeichen:
请使用 ImageMagick 将当前文件夹下所有图片的宽边统一调整为 800 像素,并添加一个灰色的“Internal Use Only”半透明水印,然后将处理后的图片保存在新文件夹中。
- Bilder nähen:
请用 ImageMagick 将处理过的四张图片拼合成一张 2x2 的四宫格图,图片之间保留白色分隔。
nutzen. Pandoc
Universelle Dokumentenkonvertierung erreichen
Pandoc
Es ist bekannt als das "Schweizer Taschenmesser" der Dokumentformatkonvertierung. Es kann eine große Rolle beim Umgang mit verschiedenen Formaten von Office-Dokumenten spielen.
请使用 Homebrew 安装 Pandoc。
Einmal installiert, ist es einfach, die Markdown
Die Datei wird konvertiert in Word
Dokument und behält den größten Teil der Formatierung bei.
请使用 Pandoc 将 "Andrej Karpathy 软件 3.0 分享.md" 这个 Markdown 文档转换为 Word (.docx) 格式。
Gemini CLI
Das Auftauchen der Software bestätigt einen wichtigen Trend: Groß angelegte Sprachmodelle werden zur universellen Schnittstelle, die menschliche Absichten mit komplexen Maschinenanweisungen verbindet. Spezialisierte Werkzeuge, die früher aufgrund ihrer Komplexität dem Durchschnittsnutzer verschlossen waren, werden nun über die natürliche Sprache zugänglich.
Dieser Wandel bedeutet nicht nur eine Steigerung der Effizienz, sondern auch eine Auflösung der Schranken für die Nutzung der Technologie. In diesem neuen Interaktionsparadigma wird die Vorstellungskraft des Nutzers und nicht seine Programmierkenntnisse der Schlüssel zur Erschließung des Potenzials der Informatik sein.