
AI-Chatbox: ESP32S3-basiertes Projekt für intelligenten Dialog von Sprache zu Text
AI-Chatbox ist ein Sprachinteraktionsprojekt, das auf dem ESP32S3 Entwicklungsboard basiert. Benutzer sprechen mit dem großen Modell (LLM) per Stimme, das Gerät wird die Stimme in Text umwandeln und an das große Modell senden, nachdem es die Antwort erhalten hat, kann es weiter in Sprachübertragung umgewandelt werden. Das Projekt wurde in der Sprache Rust entwickelt, integriert mit dem Spracherkennungstool Vosk, geeignet für...

TEN: Ein Open-Source-Tool zur Entwicklung multimodaler Sprach-KI-Intelligenzen in Echtzeit
TEN Framework ist eine Open-Source-Softwareplattform, die Entwicklern hilft, multimodale Sprach-KI-Intelligenzen in Echtzeit und mit geringer Latenz zu erstellen. Es unterstützt mehrere Programmiersprachen, darunter C, C++, Go, Python, JavaScript und TypeScript. Entwickler können mit dem TEN Framework schnell Sprach-, Bild- und Textintelligenzen mit...

Zaia Health: der KI-Sprachassistent, der Gesundheitsgewohnheiten überwacht und verbessert
Zaia Health ist eine Gesundheits-App mit künstlicher Intelligenz, in deren Mittelpunkt ein Sprachassistent namens Zaia steht. Die App soll den Nutzern helfen, sich auf ihre Gesundheitsgewohnheiten zu konzentrieren und diese zu verbessern. Durch Sprachinteraktion fungiert sie als persönlicher Gesundheitsbegleiter, der die Nutzer zu einer regelmäßigeren Routine in den Bereichen Schlaf, Bewegung, Ernährung und geistige Gesundheit anleitet...

wukong-robot: ein Projekt für intelligente Lautsprecher zur Erstellung personalisierter chinesischer Sprachdialoge
wukong-robot ist ein Open-Source-Projekt für chinesische Sprachdialogroboter und intelligente Lautsprecher, das Entwicklern helfen soll, schnell personalisierte intelligente Lautsprecher zu erstellen. Es unterstützt chinesische Spracherkennung, Sprachsynthese und Multi-Runden-Dialogfunktion, integriert mit ChatGPT, Baidu, KDDI und anderen Technologien. Das Projekt ist modular aufgebaut, Plug-ins und Funktionen können frei erweitert werden, geeignet...

RealtimeVoiceChat
RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Echtzeitgespräche mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden das Mikrofon zur Spracheingabe, das System nimmt das Audio über den Browser auf, wandelt es schnell in Text um, generiert eine Antwort aus einem großen Sprachmodell (LLM) und wandelt dann den Text in eine Sprachausgabe um, wobei der gesamte Prozess nahezu in Echtzeit erfolgt. Das Projekt verwendet ...

gibberlink: ein Demonstrationsprojekt für effiziente Audiokommunikation zwischen zwei KI-Intelligenzen
gibberlink ist ein Open-Source-Projekt auf GitHub des Entwicklers PennyroyalTea, das sich darauf konzentriert, eine optimierte Kommunikation zwischen zwei dialogfähigen KI-Intelligenzen zu ermöglichen. Wenn zwei KIs miteinander telefonieren und sich gegenseitig als KIs erkennen, wechseln sie von der menschlichen Sprache (Englisch) zu einer...

OpenAI Realtime Agents
OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-APIs von OpenAI genutzt werden können, um multi-intelligente Körpersprachanwendungen zu entwickeln. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt aus OpenAI Swarm), das es Entwicklern ermöglicht, komplexe multi-intelligente Körpersprachsysteme in kurzer Zeit zu erstellen. Das Projekt ...

Bürgschaft
Bailing ist ein Open-Source-Sprachdialog-Assistent, der durch Sprache einen natürlichen Dialog mit dem Benutzer führen soll. Das Projekt kombiniert Spracherkennung (ASR), Voice Activity Detection (VAD), Large Language Model (LLM) und Sprachsynthese (TTS) Technologien, um einen GPT-4o-ähnlichen Sprachdialogroboter zu implementieren. Die Ende-zu-Ende-Latenz von BaiLing ...

"Always-On" Deepseek AI Assistant: Aufbau eines intelligenten Sprachinteraktionssystems auf Basis von Deepseek-V3
Always-On AI Assistant ist ein innovatives KI-Assistentenprojekt, das durch die Integration von fortschrittlichen Technologien wie Deepseek-V3, RealtimeSTT und Typer ein leistungsfähiges und permanent online verfügbares KI-Assistenzsystem schafft. Das Projekt ist speziell für technische Entwicklungsszenarien optimiert und bietet eine komplette...

Xiaozhi AI Chatbot
Xiaozhi AI Chatbot ist ein Open-Source-Projekt, das auf dem ESP32-Entwicklungsboard basiert und Benutzern helfen soll, ihren eigenen KI-Chat-Begleiter zu bauen. Das Projekt wurde von Shrimp entwickelt und wird hauptsächlich für Lehrzwecke verwendet, um mehr Menschen den Einstieg in die Entwicklung von KI-Hardware zu erleichtern und zu verstehen, wie man das große Sprachmodell auf tatsächliche Hardware-Geräte anwendet. Das Projekt unterstützt Spracherkennung und Dialogfunktionen in mehreren Sprachen...

Fish Agent
Fish Speech Derivative Project Fish Agent ist ein revolutionäres End-to-End-KI-Sprachklon-System, das auf der Grundlage der 3B-Modellarchitektur V0.1 entwickelt wurde. Das wichtigste Merkmal dieses Systems ist, dass es ein innovatives semantisches tagloses Architekturdesign verwendet, das nicht auf traditionelle semantische Compiler wie Whisper angewiesen ist...

Ichigo (lama3-s)
Ichigo ist ein Open-Source-Echtzeit-Sprach-KI-Projekt, das darauf abzielt, textbasierte Sprachmodelle mit nativen “Hör”-Fähigkeiten zu erweitern. Das Projekt verwendet frühe Fusionstechniken, die von Metas Chameleon-Papier inspiriert sind.Ichigos Ziel ist es, ein Open-Source-Daten-, Open-Source-gewichteter Sprachassistent für native Geräte zu werden, ähnlich wie S...

Hume AI: Stärkung der KI mit Emotionserkennung | Erkennung von Gefühlszuständen aus Lauten und Ausdrücken | Generierung von Sprache mit Gefühlszuständen
Hume AI ist ein KI-Unternehmen, das sich auf emotionale Intelligenz konzentriert und multimodale KI-Technologien entwickelt, die menschliche Emotionen verstehen und auf sie reagieren. Das Flaggschiff des Unternehmens, das Empathic Voice Interface (EVI), ist in der Lage, Emotionen des Benutzers in verschiedenen Formen zu erkennen und darauf zu reagieren, einschließlich Sprache, Gesichtsausdruck und Sprache, um die emotionale Erfahrung der Mensch-Computer-Interaktion zu verbessern....
zurück zum Anfang