Voxtral ist sein erstes offenes Audiomodell, das am 15. Juli 2025 vom französischen KI-Startup Mistral AI veröffentlicht wurde. Voxtral zielt darauf ab, kommerzielle Anwendungen mit Sprachverstehensfähigkeiten out-of-the-box für Produktionsumgebungen auszustatten, zu einem Preis, der auf dem Markt sehr wettbewerbsfähig ist. Das Voxtral-Modell ist in zwei Versionen für .... erhältlich
legacy-use ist ein Open-Source-Tool, dessen Hauptaufgabe darin besteht, eine moderne REST-API-Schnittstelle für alte, API-lose Desktop-Software (oft als "Legacy-Software" bezeichnet) bereitzustellen. Es verwendet eine KI-Intelligenz, um die grafische Benutzeroberfläche (GUI) der Software zu "beobachten" und die Tasten des menschlichen Benutzers zu...
Portia AI ist ein Open Source Python Software Development Kit (SDK), das Entwicklern hilft, intelligente, automatisierte Workflows zu erstellen. Es macht es den Nutzern leicht, komplexe Aufgabenprozesse durch ein Multi-Intelligenz-System zu entwerfen und auszuführen.Portia AI unterstützt Entwickler bei der Anpassung von Workflows,...
CanonSwap ist ein Forschungsprojekt und ein Rahmenwerk, das sich mit der Technologie zum Austausch von Gesichtern in Videos befasst. Es konzentriert sich auf die Lösung eines Kernproblems bestehender Technologien: Wenn das Gesicht eines Charakters in einem Video ersetzt wird, werden oft die dynamischen Attribute des ursprünglichen Videos zerstört, wie der Ausdruck des Charakters, die Kopfbewegung und die Mundsynchronisation, was zu einem unnatürlichen und instabilen Face-Swap führt...
BrowserOS ist ein Open-Source-KI-Smart-Browser, der auf Chromium entwickelt wurde und mit allen Chrome-Erweiterungen kompatibel ist. Er legt großen Wert auf den Schutz der Privatsphäre, und alle Daten und KI-Modelle laufen lokal, wobei die Benutzer die Möglichkeit haben, ihre eigenen API-Schlüssel oder lokale Modelle wie Ollama zu verwenden.
Scira MCP Chat ist ein Open-Source-KI-Chat-Tool, das auf dem MCP-Protokoll (Model Context Protocol) basiert. Es unterstützt mehrere KI-Modelle über Vercel AI SDK, so dass Benutzer mit verschiedenen MCP-Servern verbinden und die KI-Funktionalität erweitern können. Das Projekt wurde entwickelt von Zai...
geminicli2api ist ein quelloffener FastAPI-basierter Proxy-Server, der auf GitHub gehostet wird. Er konvertiert die Funktionalität der Google Gemini CLI in eine OpenAI-kompatible API-Schnittstelle und unterstützt gleichzeitig native Gemini-API-Endpunkte. Entwickler ...
Xiaozhi Client ist eine plattformübergreifende KI-Assistenten-App, die auf Basis des Flutter-Frameworks entwickelt wurde und mehrere Plattformen wie Android, iOS, Web, Windows, macOS und Linux unterstützt. Sie ermöglicht Sprachinteraktion und Textdialog in Echtzeit durch WebSocket-Technologie, so dass Benutzer jederzeit und überall mit dem KI-Assistenten kommunizieren können. Artikel...
Refact.ai ist ein Open-Source-KI-Programmierassistent für Entwickler, der führende IDEs wie Visual Studio Code und JetBrains unterstützt. Refact.ai verbessert die Programmierproduktivität durch intelligente Code-Vervollständigung, Code-Refactoring und natürlichsprachliche Interaktion...
Chrome MCP Server ist eine Chrome-basierte Erweiterung. Sie ermöglicht KI-Assistenten (wie Claude) die direkte Steuerung des Chrome-Browsers eines Benutzers über das Model Context Protocol (MCP)-Protokoll, wodurch komplexe automatisierte Vorgänge, Inhaltsanalysen und semantische...
MemOS ist ein Open-Source-System, das sich auf Speichererweiterungen für Large Language Models (LLMs) konzentriert. Es hilft den Modellen, kontextbezogene Informationen durch innovative Speicherverwaltungs- und Planungsmechanismen besser zu speichern, abzurufen und zu nutzen.MemOS zeichnet sich durch Aufgaben wie Multi-Hop-Inferenz, Open-Domain-Quizzing und temporale Inferenz aus, verglichen mit...
CosyVoice ist ein quelloffenes, mehrsprachiges Spracherzeugungsmodell mit Schwerpunkt auf hochwertiger Text-to-Speech (TTS)-Technologie. Es unterstützt die Sprachsynthese in mehreren Sprachen und bietet Funktionen wie Null-Sample-Sprachgenerierung, sprachübergreifendes Sprachklonen und feinkörnige Sentiment-Kontrolle.Cos- yVoice 2.0 vergleicht die Vorgängerversion...
Qwen3-8B-BitNet ist ein Open-Source-Modell für große Sprachen, das vom Hugging-Face-Nutzer codys12 entwickelt und gehostet wird. Das Modell basiert auf Qwen3-8B, das mit der BitNet-Technologie feinabgestimmt wurde, wobei ein Datensatz von etwa 1 Milliarde Token (Prime I...
xmcp ist ein TypeScript-basiertes Entwicklungsframework für die Erstellung und Verteilung von MCP-Anwendungen (Model Context Protocol). Es vereinfacht den Entwicklungsprozess und ermöglicht es Entwicklern, schnell effiziente Tools zu erstellen und sie im MCP-Ökosystem einzusetzen. xmcp konzentriert sich auf die Erfahrung der Entwickler und bietet Dateisystem-Routing...
21st.dev ist eine Open-Source-Plattform, die sich auf die Erstellung, den Austausch und die Installation von React UI-Komponenten konzentriert. Inspiriert von shadcn/ui, bietet sie leichtgewichtige, moderne Komponenten, die auf Tailwind CSS und Radix UI basieren. Entwickler können Komponenten schnell installieren, ihre Arbeit veröffentlichen oder mehrere UI-Varianten durch KI generieren...
Trae Agent ist ein Werkzeug zur Automatisierung von Softwareentwicklungsaufgaben auf der Grundlage des Large Language Model (LLM), das von ByteDance als Open Source zur Verfügung gestellt wird. Es empfängt natürlichsprachliche Anweisungen über eine Befehlszeilenschnittstelle (CLI), um komplexe Programmieraufgaben wie das Schreiben von Code, das Beheben von Fehlern oder die Optimierung von Programmen zu automatisieren. Das Projekt befindet sich derzeit in der Alpha-Phase...
Gen CLI ist ein Open-Source-Befehlszeilen-Tool, das auf einem Fork von Googles Gemini CLI basiert, auf GitHub gehostet wird und für Entwickler entwickelt wurde. Es bietet KI-Funktionen über das Terminal, unterstützt KI-Modelle wie DeepSeek und ermöglicht es Benutzern, Code in natürlicher Sprache zu generieren, Entwicklungsaufgaben zu automatisieren...
DeepResearch ist ein Open-Source-KI-Forschungsassistent, der auf GitHub gehostet wird. Er soll Nutzern dabei helfen, durch eine Kombination aus Suchmaschinen, Web-Crawling und Large Language Modelling (LLM) tiefgehende Recherchen zu automatisieren. Es wurde vom Entwickler cat3399 mit dem Ziel erstellt, ein einfach zu bedienendes Recherchetool bereitzustellen, das...
THESIS Agent ist ein auf GitHub gehostetes Open-Source-KI-Tool für intelligente Körper, das Benutzern helfen soll, wissenschaftliche Arbeiten effizienter zu verfassen. Es erleichtert die mühsame Arbeit in der akademischen Forschung, indem es die Verarbeitung von Dokumenten, die Analyse von Daten und die Erstellung von Inhalten automatisiert. Das Projekt basiert auf einem fortschrittlichen Sprachmodell, das Multi-Intelligenz kombiniert...