AI-Chatbox: ESP32S3-basiertes Projekt für intelligenten Dialog von Sprache zu Text
AI-Chatbox ist ein Sprachinteraktionsprojekt, das auf dem ESP32S3 Entwicklungsboard basiert. Benutzer sprechen mit dem großen Modell (LLM) per Stimme, das Gerät wird die Stimme in Text umwandeln und an das große Modell senden, nachdem es die Antwort erhalten hat, kann es weiter in Sprachübertragung umgewandelt werden. Das Projekt wurde in der Sprache Rust entwickelt und mit dem Spracherkennungsprogramm Vosk integriert...
TEN: Ein Open-Source-Tool zur Entwicklung multimodaler Sprach-KI-Intelligenzen in Echtzeit
TEN Framework ist eine Open-Source-Softwareplattform, die Entwicklern hilft, multimodale Sprach-KI-Intelligenzen in Echtzeit und mit geringer Latenz zu erstellen. Es unterstützt mehrere Programmiersprachen, darunter C, C++, Go, Python, JavaScript und TypeScript. Entwickler können mit dem TEN Framework schnell Sprach- und Bildverarbeitungsanwendungen erstellen .....
Zaia Health: der KI-Sprachassistent, der Gesundheitsgewohnheiten überwacht und verbessert
Zaia Health ist eine Gesundheits-App mit künstlicher Intelligenz, in deren Mittelpunkt ein Sprachassistent namens Zaia steht. Die App soll Nutzern helfen, sich auf ihre Gesundheitsgewohnheiten zu konzentrieren und diese zu verbessern. Sie fungiert als persönlicher Gesundheitsbegleiter durch Sprachinteraktion und führt die Nutzer durch Schlaf, Bewegung, Ernährung und mentale...
wukong-robot: ein Projekt für intelligente Lautsprecher zur Erstellung personalisierter chinesischer Sprachdialoge
wukong-robot ist ein Open-Source-Projekt für chinesische Sprachdialogroboter und intelligente Lautsprecher, das Entwicklern helfen soll, schnell personalisierte intelligente Lautsprecher zu erstellen. Es unterstützt chinesische Spracherkennung, Sprachsynthese und Multi-Runden-Dialogfunktion, integriert mit ChatGPT, Baidu, KDDI und anderen Technologien. Das Projekt ist modular aufgebaut,...
RealtimeVoiceChat
RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Echtzeitgespräche mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden das Mikrofon zur Spracheingabe, das System nimmt das Audio über den Browser auf, wandelt es schnell in Text um, generiert eine Antwort aus einem großen Sprachmodell (LLM) und wandelt dann den Text in Sprachausgabe um, das Ganze...
gibberlink: ein Demonstrationsprojekt für effiziente Audiokommunikation zwischen zwei KI-Intelligenzen
gibberlink ist ein Open-Source-Projekt auf GitHub des Entwicklers PennyroyalTea, das sich darauf konzentriert, eine optimierte Kommunikation zwischen zwei dialogfähigen KI-Intelligenzen zu ermöglichen. Wenn zwei KIs miteinander telefonieren und sich gegenseitig als KIs erkennen, wechseln sie von der menschlichen Sprache (Englisch) zu einer...
OpenAI-Echtzeit-Agenten
OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-APIs von OpenAI genutzt werden können, um multi-intelligente Körpersprachanwendungen zu entwickeln. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt aus OpenAI Swarm), das es Entwicklern ermöglicht, komplexe multi-intelligente Körpersprachsysteme in kurzer Zeit zu erstellen. Das Projekt ...
Bürgschaft
Bailing (Bailing) ist ein Open-Source-Sprachdialog-Assistent, der entwickelt wurde, um einen natürlichen Dialog mit dem Benutzer durch Sprache zu führen. Das Projekt kombiniert Spracherkennung (ASR), Voice Activity Detection (VAD), Large Language Model (LLM) und Sprachsynthese (TTS) Technologien, um einen Sprachdialogroboter ähnlich dem GPT-4o zu implementieren...
"Always-On" Deepseek AI Assistant: Aufbau eines intelligenten Sprachinteraktionssystems auf Basis von Deepseek-V3
Always-On AI Assistant ist ein innovatives KI-Assistentenprojekt, das durch die Integration von fortschrittlichen Technologien wie Deepseek-V3, RealtimeSTT und Typer ein leistungsfähiges und permanent online verfügbares KI-Assistenzsystem schafft. Das Projekt ist speziell für technische Entwicklungsszenarien optimiert und bietet eine komplette...
Xiaozhi AI Chatbot
Xiaozhi AI Chatbot ist ein Open-Source-Projekt, das auf dem ESP32-Entwicklungsboard basiert und Benutzern helfen soll, ihren eigenen KI-Chat-Begleiter zu bauen. Das Projekt wird von Shrimp entwickelt und dient hauptsächlich zu Lehrzwecken, um mehr Menschen den Einstieg in die Entwicklung von KI-Hardware zu erleichtern und zu verstehen, wie man das große Sprachmodell auf reale Hardwaregeräte anwendet. Projekt ...
Fisch-Agent
Fish Speech Derivative Project Fish Agent ist ein revolutionäres End-to-End-KI-System zum Klonen von Sprache, das auf der Grundlage der 3B-Modellarchitektur V0.1 entwickelt wurde. Sein wichtigstes Merkmal ist die innovative, semantische taglose Architektur, die nicht auf traditionelle Sprachen wie Whisper ..... angewiesen ist.
Ichigo (lama3-s)
Ichigo ist ein Open-Source-Echtzeit-Sprach-KI-Projekt, das darauf abzielt, textbasierte Sprachmodelle mit nativen "Hör"-Fähigkeiten zu erweitern. Das Projekt verwendet frühe Fusion Techniken inspiriert von Meta Chameleon paper.Ichigo Ziel ist es, eine Open-Source-Daten, Open-Source-gewichtet native Gerät Sprache zu werden...
Hume AI: Stärkung der KI mit Emotionserkennung | Erkennung von Gefühlszuständen aus Lauten und Ausdrücken | Generierung von Sprache mit Gefühlszuständen
Hume AI ist ein KI-Unternehmen, das sich auf emotionale Intelligenz konzentriert und multimodale KI-Technologien entwickelt, die menschliche Emotionen verstehen und auf sie reagieren. Sein Vorzeigeprodukt, Empathic Voice Interface (EVI), ist in der Lage, Emotionen des Benutzers in verschiedenen Formen zu erkennen und darauf zu reagieren, einschließlich Sprache, Gesichtsausdruck und Sprache, um die Interaktion zwischen Mensch und Computer zu verbessern...
zurück zum Anfang