AI音频

 提交网站

AI-Chatbox：基于ESP32S3的语音转文字智能对话项目
AI-Chatbox 是一个基于 ESP32S3 开发板的语音交互项目。用户通过语音与大模型（LLM）对话，设备将语音转为文字，发送给大模型，获取回答后可进一步转为语音播报。项目使用 Rust 语言开发，集成了 Vosk 语音识别工具，适合...
3.2 K直达0已赞
0已收藏
TEN：构建实时多模态语音AI智能体的开源工具
TEN框架是一个开源的软件平台，专注于帮助开发者构建实时、多模态、低延迟的语音AI智能体。它支持多种编程语言，包括C、C++、Go、Python、JavaScript和TypeScript。开发者可以通过TEN框架快速创建具有语音、视觉和文...
3.7 K直达0已赞
0已收藏
Zaia Health：监控并改善健康习惯的AI语音助手
Zaia Health是一款人工智能健康应用，它的核心是一个名为“Zaia”的语音助手。这款应用旨在帮助用户关注并改善自己的健康习惯。它通过语音交互的方式，像一个私人健康伴侣一样，引导用户在睡眠、锻炼、营养和心理健康等方面养成更规律的生...
2.2 K直达0已赞
0已收藏
wukong-robot：打造个性化中文语音对话的智能音箱项目
wukong-robot 是一个开源的中文语音对话机器人和智能音箱项目，旨在帮助开发者快速构建个性化的智能音箱。它支持中文语音识别、语音合成和多轮对话功能，集成了ChatGPT、百度、科大讯飞等技术。项目设计模块化，插件和功能可自由扩展，适...
3.7 K直达0已赞
0已收藏
RealtimeVoiceChat
RealtimeVoiceChat 是一个开源项目，专注于通过语音与人工智能进行实时、自然的对话。用户使用麦克风输入语音，系统通过浏览器捕获音频，快速转为文字，由大型语言模型（LLM）生成回复，再将文字转为语音输出，整个过程接近实时。项目采...
5.2 K直达0已赞
0已收藏
gibberlink：两个AI智能体间高效音频通信的演示项目
gibberlink 是一个由开发者 PennyroyalTea 在 GitHub 上开源的项目，专注于实现两个对话型 AI 智能体之间的通信优化。当两个 AI 智能体通过电话交谈并识别出彼此均为 AI 时，它们会从人类语言（英语）切换到一...
8.7 K直达0已赞
0已收藏
OpenAI Realtime Agents
OpenAI Realtime Agents是一个开源项目，旨在展示如何利用OpenAI的实时API来构建多智能体的语音应用。它提供了高级的智能体模式（借鉴 OpenAI Swarm），允许开发者在短时间内搭建出复杂的多智能体语音系统。该项...
4.4 K直达0已赞
0已收藏
百聆 (Bailing)
百聆（Bailing）是一个开源的语音对话助手，旨在通过语音与用户进行自然的对话。该项目结合了语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，实现了类似GPT-4o的语音对话机器人。百聆的端到端时延...
4.1 K直达0已赞
0已收藏
“Always-On” Deepseek AI Assistant：基于Deepseek-V3打造智能语音交互系统
Always-On AI Assistant是一个创新的AI助手项目，它通过整合Deepseek-V3、RealtimeSTT和Typer等先进技术，打造了一个功能强大的永久在线AI助理系统。该项目特别针对工程开发场景进行优化，提供了完整的...
5.1 K直达0已赞
0已收藏
小智 AI 聊天机器人
小智 AI 聊天机器人是一个基于ESP32开发板的开源项目，旨在帮助用户构建自己的AI聊天伴侣。该项目由虾哥开发，主要用于教学目的，帮助更多人入门AI硬件开发，并了解如何将大语言模型应用到实际的硬件设备中。项目支持多种语言的语音识别和对话功...
7.2 K直达0已赞
0已收藏
Fish Agent
Fish Speech 衍生项目 Fish Agent 是一款革命性的端到端AI语音克隆系统，基于V0.1 3B模型架构开发。作为一个完全端到端的语音克隆处理系统，其最大特点是采用创新的无语义标记架构设计，无需依赖Whisper等传统语义编...
4.3 K直达0已赞
0已收藏
Ichigo（llama3-s）
Ichigo是一个开源的实时语音AI项目，旨在扩展基于文本的语言模型，使其具备原生的“听力”能力。该项目采用了早期融合技术，灵感来自Meta的Chameleon论文。Ichigo的目标是成为一个开源数据、开源权重的本地设备语音助手，类似于S...
4.0 K直达0已赞
0已收藏
Hume AI：赋予AI情感识别能力|从声音和表情识别情感状态|生成具有情感状态的语音
Hume AI 是一家专注于情感智能的人工智能公司，致力于开发能够理解和响应人类情感的多模态AI技术。其旗舰产品同理心语音界面（EVI）能够通过语音、面部表情和语言等多种形式识别和回应用户的情感，提升人机交互的情感体验。Hume AI 的目...
3.9 K直达0已赞
0已收藏

AI音频

快速查询站内AI工具