BAGEL 是由 ByteDance Seed 团队开发的一个开源多模态基础模型,托管于 GitHub。它集成了文本理解、图像生成和编辑功能,支持跨模态任务。模型拥有 7B 活跃参数(总计 14B 参数),采用 Mixture-of-Tra...
DeepResearchAgent是SkyworkAI开发的一款开源AI工具,专注于自动化深度研究。它通过结合搜索引擎、网页抓取和大型语言模型(LLM),帮助用户快速生成详细的研究报告。用户只需输入研究主题或问题,工具就能自动搜...
Muscle-Mem 是一个开源的 Python 工具,托管在 GitHub 上,由 pig-dot-dev 开发。它旨在为 AI 代理提供行为缓存功能,帮助减少重复任务中的大语言模型(LLM)调用,从而提高运行速度、降低变异性并节省成本。...
Simple Subtitling 是一个开源的音频字幕生成工具,专注于为视频或音频文件自动生成字幕并标注说话者身份。项目由 Jaesung Huh 开发,托管在 GitHub 上,旨在提供简单高效的字幕生成解决方案。工具通过音频处理技.....
arXiv Summarizer 是一个开源的 Python 脚本工具,托管在 GitHub 上,旨在帮助用户快速从 arXiv 平台获取并生成学术论文的摘要。它利用免费的 Gemini API 进行高效的文本摘要,适合研究人员、学生和学术...
Sim Studio 是一个开源的 AI 代理工作流构建平台,专注于通过轻量、直观的可视化界面帮助用户快速设计、测试和部署大型语言模型(LLM)工作流。用户无需深入编程即可通过拖拽方式创建复杂的多代理应用。它支持本...
Mad Professor(暴躁的教授读论文) 是一个开源的 AI 学术工具,专为研究人员和学生设计,旨在简化学术论文的阅读和分析。它集成了 PDF 处理、AI 翻译、RAG 检索、AI 问答和语音交互等功能。用户可以导入 PDF 论...
AIstudioProxyAPI 是一个开源项目,使用 Node.js 和 Playwright 技术,通过模拟 OpenAI API 的方式,将 Google AI Studio 网页版的 Gemini 模型对话功能转换为标准 API 接...
Step1X-Edit 是一个开源图像编辑框架,由 Stepfun AI 团队开发,托管于 GitHub。它结合多模态大语言模型(Qwen-VL)和扩散变换器(DiT),让用户通过简单的自然语言指令编辑图像,例如更改背景、移除物体或转换风....
Klavis AI 是一个开源平台,专注于简化模型上下文协议(MCP)的使用和集成。MCP 是一种开放标准,允许 AI 应用与外部工具和数据源动态连接。Klavis AI 提供 Slack、Discord 客户端、托管的 MCP 服务器和简...
RealtimeVoiceChat 是一个开源项目,专注于通过语音与人工智能进行实时、自然的对话。用户使用麦克风输入语音,系统通过浏览器捕获音频,快速转为文字,由大型语言模型(LLM)生成回复,再将文字转为语音输出,整...
MiMo 是小米公司开发的一个开源大语言模型项目,专注于数学推理和代码生成。核心产品是 MiMo-7B 系列模型,包含基础模型 (Base)、监督微调模型 (SFT)、从基础模型训练的强化学习模型 (RL-Zero) 和从 SFT 模型训练...
Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3B 构建,结合 SoVITS 解码器,提供高...
CAD-MCP 是一个开源项目,允许用户通过自然语言指令控制 CAD 软件进行绘图操作。它结合了自然语言处理和 CAD 自动化技术,让用户无需手动操作 CAD 界面,只需输入简单的文字命令即可创建和修改图纸。项目支持多种...
GraphGen 是一个由上海人工智能实验室 OpenScienceLab 开发的开源框架,托管于 GitHub,专注于通过知识图谱指导合成数据生成,优化大语言模型(LLM)的监督微调。它从源文本构建细粒度知识图谱,利用预期校准误差...
ACI.dev 是一个开源基础设施平台,专为 AI 智能体提供与 600 多种工具的快速集成。它通过多租户认证和细粒度权限管理,确保智能体安全访问工具,如 Google Calendar、Slack 和 Brave Search。开发者可通...
llm.pdf 是一个开源项目,允许用户在 PDF 文件中直接运行大型语言模型(LLM)。这个项目由 EvanZhouDev 开发,托管在 GitHub 上,展示了一种创新的方法:通过 Emscripten 将 llama.cpp 编译为 ...
Abogen 是一个开源工具,专为将 ePub、PDF 或纯文本文件快速转换为高质量音频而设计。它使用 Kokoro-82M 模型生成自然流畅的语音,同时支持同步字幕生成,适合制作有声读物、视频配音或学习辅助材料。用户可以选...
Local Deep Research 是一个开源的人工智能研究助手,旨在帮助用户针对复杂问题进行深度研究并生成详细的报告。它支持本地运行,使用户可以在不依赖云服务的情况下完成研究任务。工具结合了本地大语言模型(LLM)...