BAGEL ist ein vom ByteDance Seed-Team entwickeltes und auf GitHub gehostetes Open-Source-Multimodal-Basismodell, das Textverständnis, Bilderzeugung und Editierfunktionen zur Unterstützung crossmodaler Aufgaben integriert. Das Modell hat 7B aktive Parameter (14B Parameter insgesamt) und verwendet Mixture-of-Tra...
DeepResearchAgent ist ein von SkyworkAI entwickeltes Open-Source-KI-Tool, das sich auf die Automatisierung von Deep Research konzentriert. Es hilft Nutzern, schnell detaillierte Forschungsberichte zu erstellen, indem es Suchmaschinen, Web-Crawling und groß angelegte Sprachmodellierung (LLM) kombiniert. Die Benutzer geben einfach ein Forschungsthema oder eine Frage ein und das Tool sucht automatisch...
Muscle-Mem ist ein Open-Source-Python-Tool, das auf GitHub gehostet und von pig-dot-dev entwickelt wird. Es wurde entwickelt, um Verhaltens-Caching-Funktionen für KI-Agenten bereitzustellen, um die Aufrufe großer Sprachmodelle (LLM) bei sich wiederholenden Aufgaben zu reduzieren, was zu schnelleren Läufen, geringerer Variabilität und Kosteneinsparungen führt....
Simple Subtitling ist ein Open-Source-Tool zur Erzeugung von Audio-Untertiteln, das sich auf die automatische Erzeugung von Untertiteln und die Kennzeichnung von Sprechern für Video- oder Audiodateien konzentriert. Das von Jaesung Huh entwickelte Projekt, das auf GitHub gehostet wird, zielt darauf ab, eine einfache und effiziente Lösung zur Erzeugung von Untertiteln zu bieten. Werkzeuge durch die Audioverarbeitungstechnologie .....
arXiv Summarizer ist ein quelloffenes Python-Skripttool, das auf GitHub gehostet wird. Es wurde entwickelt, um Nutzern den schnellen Zugriff auf und die Erstellung von Zusammenfassungen von akademischen Artikeln der arXiv-Plattform zu ermöglichen. Es nutzt die kostenlose Gemini API für eine effiziente Textzusammenfassung und eignet sich für Forscher, Studenten und akademische...
Sim Studio ist eine Open-Source-Plattform für die Erstellung von KI-Agenten-Workflows, die den Nutzern hilft, über eine leichtgewichtige, intuitive visuelle Schnittstelle schnell umfangreiche Sprachmodell-Workflows (LLM) zu entwerfen, zu testen und einzusetzen. Benutzer können komplexe Multi-Agenten-Anwendungen mit Drag-and-Drop ohne tiefgreifende Programmierung erstellen. Es unterstützt diese ...
Mad Professor (暴躁的教授读论文) ist ein quelloffenes akademisches KI-Tool, das für Forscher und Studenten entwickelt wurde, um das Lesen und Analysieren von akademischen Arbeiten zu vereinfachen. Es integriert PDF-Verarbeitung, KI-Übersetzung, RAG-Suche, KI-Q&A und Sprachinteraktion. Benutzer können PDF-Dokumente importieren...
AIstudioProxyAPI ist ein Open-Source-Projekt, das Node.js und Playwright-Technologie verwendet, um die Gemini-Modell-Dialogfunktionalität der Google AI Studio-Webversion in eine Standard-API-Verbindung zu konvertieren, indem es die OpenAI-API emuliert ...
Step1X-Edit ist ein Open-Source-Framework zur Bildbearbeitung, das vom Stepfun AI-Team entwickelt wurde und auf GitHub gehostet wird. Es kombiniert ein multimodales großes Sprachmodell (Qwen-VL) und einen Diffusionstransformator (DiT), um es Benutzern zu ermöglichen, ein Bild mit einfachen Befehlen in natürlicher Sprache zu bearbeiten, z. B. den Hintergrund zu ändern, ein Objekt zu entfernen oder den Wind zu transformieren ....
Klavis AI ist eine Open-Source-Plattform, die sich auf die Vereinfachung der Nutzung und Integration des Model Context Protocol (MCP) konzentriert, einem offenen Standard, der es KI-Anwendungen ermöglicht, sich dynamisch mit externen Tools und Datenquellen zu verbinden...
RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Echtzeitgespräche mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden das Mikrofon zur Spracheingabe, das System nimmt das Audio über den Browser auf, wandelt es schnell in Text um, generiert eine Antwort aus einem großen Sprachmodell (LLM) und wandelt dann den Text in Sprachausgabe um, das Ganze...
MiMo ist ein von Xiaomi entwickeltes Open-Source-Projekt zur Modellierung großer Sprachen mit Schwerpunkt auf mathematischer Argumentation und Codegenerierung. Das Kernprodukt ist die MiMo-7B-Modellfamilie, die aus einem Basismodell (Base), einem überwachten Feinabstimmungsmodell (SFT), einem aus dem Basismodell trainierten Verstärkungslernmodell (RL-Zero) und einem aus dem Basismodell trainierten SFT-Modell besteht...
Muyan-TTS ist ein Open-Source-Text-to-Speech-Modell (TTS), das für Podcasting-Szenarien entwickelt wurde. Es wurde mit über 100.000 Stunden Podcast-Audiodaten trainiert und unterstützt die Null-Sample-Sprachsynthese, um qualitativ hochwertige natürliche Sprache zu erzeugen. Das Modell basiert auf Llama-3.2-3B, und in Kombination mit dem SoVITS-Decoder bietet es eine hohe...
CAD-MCP ist ein Open-Source-Projekt, das es Benutzern ermöglicht, CAD-Software-Zeichenoperationen durch natürlichsprachliche Befehle zu steuern. Es kombiniert die Verarbeitung natürlicher Sprache mit der CAD-Automatisierungstechnologie, so dass die Benutzer die CAD-Schnittstelle nicht manuell bedienen müssen, sondern nur einfache Textbefehle eingeben müssen, um die Zeichnung zu erstellen und zu ändern. Das Projekt unterstützt eine Vielzahl von ...
GraphGen ist ein Open-Source-Framework, das von OpenScienceLab, einem KI-Labor in Shanghai, entwickelt wurde und auf GitHub gehostet wird. Es konzentriert sich auf die Optimierung der überwachten Feinabstimmung von Large Language Models (LLMs), indem es die Erzeugung synthetischer Daten durch Wissensgraphen anleitet. Es konstruiert feinkörnige Wissensgraphen aus dem Ausgangstext, wobei der erwartete Kalibrierungsfehler...
ACI.dev ist eine Open-Source-Infrastrukturplattform, die KI-Intelligenzen eine schnelle Integration in über 600 Tools ermöglicht. Sie stellt sicher, dass Intelligenzen durch mandantenfähige Authentifizierung und fein abgestufte Rechteverwaltung sicheren Zugriff auf Tools wie Google Calendar, Slack und Brave Search haben....
llm.pdf ist ein Open-Source-Projekt, mit dem Benutzer Large Language Models (LLMs) direkt in PDF-Dateien ausführen können. Entwickelt von EvanZhouDev und gehostet auf GitHub, zeigt dieses Projekt einen innovativen Ansatz: Kompilieren von llama.cpp über Emscripten als ...
Abogen ist ein Open-Source-Tool zur schnellen Konvertierung von ePub-, PDF- oder reinen Textdateien in hochwertiges Audio. Es verwendet das Kokoro-82M-Modell, um natürliche und flüssige Sprache zu erzeugen, und unterstützt die gleichzeitige Erzeugung von Untertiteln, wodurch es sich für Hörbücher, Videosynchronisationen oder Lernhilfen eignet. Benutzer können wählen...
Local Deep Research ist ein quelloffener KI-Forschungsassistent, der Nutzern helfen soll, tiefgehende Forschung zu betreiben und detaillierte Berichte für komplexe Probleme zu erstellen. Es unterstützt die lokale Ausführung, so dass Benutzer Forschungsaufgaben erledigen können, ohne auf Cloud-Dienste angewiesen zu sein. Das Tool kombiniert Local Large Language Modelling (LLM)...