BAGEL ist ein vom ByteDance Seed-Team entwickeltes und auf GitHub gehostetes Open-Source-Multimodal-Basismodell, das Textverständnis, Bilderzeugung und Editierfunktionen zur Unterstützung crossmodaler Aufgaben integriert. Das Modell hat 7B aktive Parameter (14B Parameter insgesamt) und verwendet Mixture-of-Tra...
RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Echtzeitgespräche mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden das Mikrofon zur Spracheingabe, das System nimmt das Audio über den Browser auf, wandelt es schnell in Text um, generiert eine Antwort aus einem großen Sprachmodell (LLM) und wandelt dann den Text in Sprachausgabe um, das Ganze...
Stepsailor ist ein Werkzeug für Entwickler mit einer KI-Befehlsleiste als Kernstück. Entwickler können es nutzen, um ihre Softwareprodukte so zu gestalten, dass sie verstehen, was der Benutzer sagt, z. B. wenn der Benutzer "neue Aufgabe hinzufügen" sagt, wird die Software automatisch ausgeführt. Es wird über ein einfaches SDK in SaaS-Produkte integriert und erfordert keine Kenntnisse der Entwickler ...
OpenAvatarChat ist ein Open-Source-Projekt, das vom HumanAIGC-Engineering-Team entwickelt und auf GitHub gehostet wird. Es ist ein modulares Werkzeug für den digitalen menschlichen Dialog, das es den Benutzern ermöglicht, die volle Funktionalität auf einem einzigen PC auszuführen. Das Projekt kombiniert Echtzeit-Video, Spracherkennung und digitale menschliche Technologie...
VideoMind ist ein quelloffenes, multimodales KI-Tool, das sich auf Schlussfolgerungen, Fragen und Antworten sowie die Erstellung von Zusammenfassungen für lange Videos konzentriert. Entwickelt wurde es von Ye Liu von der Polytechnischen Universität Hongkong und einem Team des Show Lab an der Nationalen Universität von Singapur. Das Tool ahmt die Art und Weise nach, wie Menschen Videos verstehen, indem es die Aufgabe in Planung, Positionierung, Überprüfung...
MoshiVis ist ein Open-Source-Projekt, das von Kyutai Labs entwickelt und auf GitHub gehostet wird. Es basiert auf dem Moshi-Sprache-zu-Text-Modell (7B-Parameter), mit etwa 206 Millionen neuen Anpassungsparametern und dem eingefrorenen PaliGemma2-Visual-Coder (400M-Parameter), der es dem Modell ermöglicht,...
Qwen2.5-Omni ist ein Open-Source-Modell für multimodale KI, das vom Alibaba Cloud Qwen-Team entwickelt wurde. Es kann mehrere Eingaben wie Text, Bilder, Audio und Video verarbeiten und Antworten in Text oder natürlicher Sprache in Echtzeit erzeugen. Das Modell wurde am 26. März 2025 veröffentlicht, und der Code und die Modelldateien werden auf GitH.... gehostet.
xiaozhi-esp32-server 是一个为 小智AI聊天机器人(xiaozhi-esp32)提供后端服务的工具。它用 Python 编写,基于 WebSocket 协议,帮助用户快速搭建一个控制 ESP32 设备的服务器。这个项目适...
Baichuan-Audio ist ein von Baichuan Intelligence (baichuan-inc) entwickeltes Open-Source-Projekt, das auf GitHub gehostet wird und sich auf End-to-End-Sprachinteraktionstechnologie konzentriert. Das Projekt bietet ein komplettes Audio-Verarbeitungs-Framework, das Spracheingabe in diskrete Audio-Token umwandeln kann, und dann durch ein großes Modell, um ein Paar von ...
PowerAgents ist eine Plattform für KI-Intelligenzen, die sich auf Web-Automatisierungsaufgaben konzentriert und es Nutzern ermöglicht, KI-Intelligenzen zu erstellen und einzusetzen, die in der Lage sind, Daten anzuklicken, einzugeben und zu extrahieren. Die Plattform unterstützt die Einstellung von Aufgaben, die automatisch auf stündlicher, täglicher oder wöchentlicher Basis ausgeführt werden, und die Nutzer können die Intelligenzen bei der Arbeit in Echtzeit beobachten. Es gibt keine...
Step-Audio ist ein Open-Source-Framework für intelligente Sprachinteraktion, das entwickelt wurde, um sofort einsetzbare Sprachverstehens- und -erzeugungsfunktionen für Produktionsumgebungen bereitzustellen. Das Framework unterstützt mehrsprachige Dialoge (z. B. Chinesisch, Englisch, Japanisch), emotionale Sprache (z. B. fröhlich, traurig), regionale Dialekte (z. B. Kantonesisch, Sichuan), einstellbare Sprachgeschwindigkeit...
Gemini Cursor 是一个基于 Google 的 Gemini 2.0 Flash(实验性)模型的桌面智能助手。它能够通过多模态 API 实现视觉、听觉和语音交互,提供实时低延迟的用户体验。该项目由 @13point5 创建,旨在通...
DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die Modelle zeichnen sich durch Aufgaben wie visuelle Frage und Antwort, optische Zeichenerkennung, Verstehen von Dokumenten/Tabellen/Diagrammen und visuelle Lokalisierung aus....
AI Web Operator ist ein Open-Source-KI-Browser-Operator-Tool, das die Benutzererfahrung im Browser durch die Integration mehrerer KI-Technologien und SDKs vereinfachen soll. Basierend auf Browserbase und dem Vercel AI SDK, unterstützt das Tool eine Vielzahl von Large Language Models (LLM)...
SpeechGPT 2.0-preview 是 OpenMOSS 推出的首个拟人化实时交互系统,基于百万小时级语音数据训练而成。该系统具备拟人口语化表达与百毫秒级低延迟响应,支持自然流畅的实时打断交互。SpeechGPT 2.0-previ...
OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-APIs von OpenAI genutzt werden können, um multi-intelligente Körpersprachanwendungen zu entwickeln. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt aus OpenAI Swarm), das es Entwicklern ermöglicht, komplexe multi-intelligente Körpersprachsysteme in kurzer Zeit zu erstellen. Das Projekt ...
Bailing (Bailing) ist ein Open-Source-Sprachdialog-Assistent, der entwickelt wurde, um einen natürlichen Dialog mit dem Benutzer durch Sprache zu führen. Das Projekt kombiniert Spracherkennung (ASR), Voice Activity Detection (VAD), Large Language Model (LLM) und Sprachsynthese (TTS) Technologien, um einen Sprachdialogroboter ähnlich dem GPT-4o zu implementieren...
Weebo 是一个开源的实时语音聊天机器人,利用 Whisper Small 进行语音识别,Llama 3.2 进行自然语言生成,以及 Kokoro-82M 进行语音合成。该项目由 Amanvir Parhar 开发,旨在提供一个能够在本地...
OmAgent ist ein multimodales intelligentes Körper-Framework, das von Om AI Lab entwickelt wurde, um leistungsstarke KI-gestützte Funktionen für intelligente Geräte bereitzustellen. Das Projekt ermöglicht es Entwicklern, durch die Integration modernster multimodaler Basismodelle und Smart-Body-Algorithmen effiziente, interaktive Echtzeit-Erlebnisse auf einer Vielzahl von Smart Devices zu schaffen....