Zugang aus Übersee: www.kdjingpai.com

Ctrl + D Lesezeichen für diese Seite

Multimodale interaktive Produkte in Echtzeit

 Website einreichen

TEN: Ein Open-Source-Tool zur Entwicklung multimodaler Sprach-KI-Intelligenzen in Echtzeit
TEN Framework ist eine Open-Source-Softwareplattform, die Entwicklern hilft, multimodale Sprach-KI-Intelligenzen in Echtzeit und mit geringer Latenz zu erstellen. Es unterstützt mehrere Programmiersprachen, darunter C, C++, Go, Python, JavaScript und TypeScript. Entwickler können mit dem TEN Framework schnell Sprach-, Bild- und Textintelligenzen mit...
07-30 2.2 K0Gelobt
wukong-robot: ein Projekt für intelligente Lautsprecher zur Erstellung personalisierter chinesischer Sprachdialoge
wukong-robot ist ein Open-Source-Projekt für chinesische Sprachdialogroboter und intelligente Lautsprecher, das Entwicklern helfen soll, schnell personalisierte intelligente Lautsprecher zu erstellen. Es unterstützt chinesische Spracherkennung, Sprachsynthese und Multi-Runden-Dialogfunktion, integriert mit ChatGPT, Baidu, KDDI und anderen Technologien. Das Projekt ist modular aufgebaut, Plug-ins und Funktionen können frei erweitert werden, geeignet...
07-24 2.3 K0Gelobt
BAGEL
BAGEL ist ein vom ByteDance Seed-Team entwickeltes und auf GitHub gehostetes Open-Source-Multimodal-Basismodell, das Textverständnis, Bilderzeugung und Editierfunktionen zur Unterstützung crossmodaler Aufgaben integriert. Das Modell hat 7B aktive Parameter (14B Parameter insgesamt) und verwendet Mixture-of-Tra...
05-22 3.3 K0Gelobt
RealtimeVoiceChat
RealtimeVoiceChat ist ein Open-Source-Projekt, das sich auf natürliche Echtzeitgespräche mit künstlicher Intelligenz über Sprache konzentriert. Benutzer verwenden das Mikrofon zur Spracheingabe, das System nimmt das Audio über den Browser auf, wandelt es schnell in Text um, generiert eine Antwort aus einem großen Sprachmodell (LLM) und wandelt dann den Text in eine Sprachausgabe um, wobei der gesamte Prozess nahezu in Echtzeit erfolgt. Das Projekt verwendet ...
05-06 4.1 K0Gelobt
Stepsailor: Integration von KI-Befehlsleisten in bestehende SaaS-Produkte
Stepsailor ist ein Werkzeug für Entwickler mit einer KI-Befehlsleiste als Kernstück. Entwickler können es nutzen, um ihre Softwareprodukte so zu gestalten, dass sie verstehen, was der Nutzer sagt, wie z. B. “neue Aufgabe hinzufügen”, und die Software führt es automatisch aus. Es wird über ein einfaches SDK in SaaS-Produkte integriert und erfordert keine Kenntnisse der KI-Technologie...
04-10 2.2 K0Gelobt
OpenAvatarChat: ein modular aufgebautes Werkzeug für den digitalen menschlichen Dialog
OpenAvatarChat ist ein Open-Source-Projekt, das vom HumanAIGC-Engineering-Team entwickelt und auf GitHub gehostet wird. Es ist ein modulares Werkzeug für den digitalen menschlichen Dialog, das es den Benutzern ermöglicht, die volle Funktionalität auf einem einzigen PC auszuführen. Das Projekt kombiniert Echtzeit-Video, Spracherkennung und digitale menschliche Technologie...
04-05 4.1 K0Gelobt
VideoMind
VideoMind ist ein quelloffenes, multimodales KI-Tool, das sich auf Schlussfolgerungen, Fragen und Antworten sowie die Erstellung von Zusammenfassungen für lange Videos konzentriert. Entwickelt wurde es von Ye Liu von der Polytechnischen Universität Hongkong und einem Team des Show Lab an der Nationalen Universität von Singapur. Das Tool ahmt die Art und Weise nach, wie Menschen Videos verstehen, indem es die Aufgabe in Schritte wie Planung, Positionierung, Verifizierung und Beantwortung aufteilt, einen nach dem anderen.
04-02 3.4 K0Gelobt
MoshiVis
MoshiVis ist ein Open-Source-Projekt, das von Kyutai Labs entwickelt und auf GitHub gehostet wird. Es basiert auf dem Moshi-Sprache-zu-Text-Modell (7B-Parameter), mit etwa 206 Millionen neuen Anpassungsparametern und dem eingefrorenen PaliGemma2-Visual-Coder (400M-Parameter), der es dem Modell ermöglicht,...
03-28 3.2 K0Gelobt
Qwen2.5-Omni
Qwen2.5-Omni ist ein Open-Source-Modell für multimodale KI, das vom Alibaba Cloud Qwen-Team entwickelt wurde. Es kann mehrere Eingaben wie Text, Bilder, Audio und Video verarbeiten und Antworten in Text oder natürlicher Sprache in Echtzeit erzeugen. Das Modell wurde am 26. März 2025 veröffentlicht, und der Code und die Modelldateien werden auf GitHu...
03-27 4.9 K0Gelobt
xiaozhi-esp32-server: Xiaozhi AI-Chatbot als quelloffener Backend-Dienst
xiaozhi-esp32-server ist ein Tool zur Bereitstellung von Backend-Diensten für den Xiaozhi AI Chatbot (xiaozhi-esp32). Es ist in Python geschrieben und basiert auf dem WebSocket-Protokoll, damit Benutzer schnell einen Server zur Steuerung von ESP32-Geräten erstellen können. Dieses Projekt ist geeignet ...
03-18 9.6 K0Gelobt
Baichuan-Audio
Baichuan-Audio ist ein von Baichuan Intelligence (baichuan-inc) entwickeltes Open-Source-Projekt, das auf GitHub gehostet wird und sich auf End-to-End-Sprachinteraktionstechnologie konzentriert. Das Projekt bietet ein komplettes Audio-Verarbeitungs-Framework, das Spracheingabe in diskrete Audio-Token umwandeln kann und dann den entsprechenden Text durch ein großes Modell generiert...
02-28 2.9 K0Gelobt
PowerAgents: Intelligente KI-Plattform für die zeitgesteuerte Ausführung von Webaufgaben
PowerAgents ist eine Plattform für KI-Intelligenzen mit Schwerpunkt auf Web-Automatisierungsaufgaben, die es Nutzern ermöglicht, KI-Intelligenzen zu erstellen und einzusetzen, die in der Lage sind, Daten anzuklicken, einzugeben und zu extrahieren. Die Plattform unterstützt die Einstellung von Aufgaben, die automatisch auf stündlicher, täglicher oder wöchentlicher Basis ausgeführt werden, und Nutzer können die Intelligenzen in Echtzeit bei der Arbeit beobachten. Die Plattform bietet nicht nur autonome Gebäudefunktionen, sondern auch soziale...
02-28 2.4 K0Gelobt
Step-Audio
Step-Audio ist ein Open-Source-Framework für intelligente Sprachinteraktion, das entwickelt wurde, um sofort einsetzbare Sprachverstehens- und -erzeugungsfunktionen für Produktionsumgebungen bereitzustellen. Das Framework unterstützt mehrsprachige Dialoge (z.B. Chinesisch, Englisch, Japanisch), emotionale Sprache (z.B. fröhlich, traurig), regionale Dialekte (z.B. Kantonesisch, Sichuan), einstellbare Sprechgeschwindigkeit und rhythmischen Stil (z.B. Rap).Step-...
02-19 3.0 K0Gelobt
Gemini Cursor: ein intelligenter KI-Desktop-Assistent, der auf Gemini aufbaut und sehen, hören und sprechen kann
Gemini Cursor ist ein intelligenter Desktop-Assistent, der auf dem Gemini 2.0 Flash-Modell von Google (experimentell) basiert. Er ermöglicht visuelle, auditive und sprachliche Interaktionen über eine multimodale API und bietet eine Echtzeit-Nutzererfahrung mit geringer Latenzzeit. Das von @13point5 entwickelte Projekt zielt darauf ab,...
02-12 2.9 K0Gelobt
DeepSeek-VL2
DeepSeek-VL2 ist eine Reihe von fortschrittlichen Mixture-of-Experts (MoE) visuellen Sprachmodellen, die die Leistung des Vorgängers DeepSeek-VL deutlich verbessern. Die Modelle zeichnen sich durch Aufgaben wie visuelle Frage und Antwort, optische Zeichenerkennung, Verstehen von Dokumenten/Tabellen/Diagrammen und visuelle Lokalisierung aus....
02-12 3.5 K0Gelobt
AI Web Operator: Browser-Automatisierung, Open-Source-Implementierung von OpenAI Operator
AI Web Operator ist ein Open-Source-KI-Browser-Operator-Tool, das die Benutzererfahrung im Browser durch die Integration mehrerer KI-Technologien und SDKs vereinfachen soll. Basierend auf Browserbase und dem Vercel AI SDK, unterstützt das Tool eine Vielzahl von Large Language Models (LLM)...
01-31 3.0 K0Gelobt
SpeechGPT 2.0-Preview: ein durchgängiges anthropomorphes Sprachdialog-Makromodell für Echtzeit-Interaktion
SpeechGPT 2.0-preview ist das erste anthropomorphe Echtzeit-Interaktionssystem von OpenMOSS, das auf Millionen von Stunden an Sprachdaten trainiert wurde. SpeechGPT 2.0-Previ...
01-30 2.8 K0Gelobt
OpenAI Realtime Agents
OpenAI Realtime Agents ist ein Open-Source-Projekt, das zeigen soll, wie die Echtzeit-APIs von OpenAI genutzt werden können, um multi-intelligente Körpersprachanwendungen zu entwickeln. Es bietet ein intelligentes High-Level-Körpermodell (entlehnt aus OpenAI Swarm), das es Entwicklern ermöglicht, komplexe multi-intelligente Körpersprachsysteme in kurzer Zeit zu erstellen. Das Projekt ...
01-19 3.5 K0Gelobt
Bürgschaft
Bailing ist ein Open-Source-Sprachdialog-Assistent, der durch Sprache einen natürlichen Dialog mit dem Benutzer führen soll. Das Projekt kombiniert Spracherkennung (ASR), Voice Activity Detection (VAD), Large Language Model (LLM) und Sprachsynthese (TTS) Technologien, um einen GPT-4o-ähnlichen Sprachdialogroboter zu implementieren. Die Ende-zu-Ende-Latenz von BaiLing ...
01-19 3.4 K0Gelobt