
AI生产力工具
PolyBuzz:与AI角色互动的免费聊天与角色扮演平台
PolyBuzz 是一个免费的 AI 聊天和角色扮演平台。用户可以与超过 2000 万个虚拟角色互动。这些角色涵盖动漫、电影、游戏和历史人物等多个领域。平台支持用户创建自定义角色,设计个性化的外观和背景故事。它提供自然流畅的对话体验,角色能...

Video Face Swap
Video Face Swap 是一款完全免费的 AI 换脸工具,用户可以在任何视频中轻松替换人脸。该工具支持实时或后期处理换脸,适用于视频、照片和 GIF 动画。其智能算法能够识别视频中的面部并进行精确替换,生成逼真且有趣的内容。用户可以...

RoboNeo:通过聊天生成和编辑视频与图像的AI工具
RoboNeo是一款人工智能内容创作工具,它通过一个像聊天软件一样的界面,让用户通过输入文字指令来生成和编辑图像与视频。用户可以输入简单的文字描述,RoboNeo就能理解并创作出相应的内容。这个工具可以用来制作最多5秒钟的短视频,也能根据文...

FaceFusion:视频换脸增强工具|语音同步视频嘴型动作
FaceFusion是一个集成了面部交换与增强功能的先进云平台,优化了“图像到视频”、“图像到图像”的交换过程,并拥有5个专业模型,以确保无瑕的输出。此外,它通过7种模型进行面部增强,使用3种不同模型提升视频和图片质量,提供了一系列强大的功...

Unlimited AI Chat:免费无限制的AI聊天工具
Unlimited AI Chat 是一个免费的在线AI聊天平台,用户无需注册即可使用。它支持无限制的内容生成,包括创意写作、虚构故事,甚至NSFW(不适合工作环境)内容。平台采用先进的自然语言处理技术,生成接近人类对话的响应。用户可以随时...

DeepMosaics:自动去除图像和视频中的马赛克,或向其添加马赛克
DeepMosaics是一个基于语义分割和图像到图像转换技术的开源项目,旨在自动移除图片和视频中的马赛克,或向其添加马赛克效果。该项目利用深度学习的力量,为用户提供了一种高效的方法来处理马赛克图像,无论是去码还是加码。DeepMosaics...

KunAvatar(kun-lab):基于 Ollama 的本地轻量AI对话客户端
kun-lab 是一款基于 Ollama 的开源 AI 对话应用,专注于提供轻量、快速的本地化智能对话体验。它支持 Windows、macOS 和 Linux(目前以 Windows 为主),无需复杂配置即可使用。用户可以与 AI 进行流畅...

UI-TARS Desktop:使用自然语言控制电脑的桌面智能体应用
UI-TARS-desktop是由字节跳动(Bytedance)开源的一款桌面应用程序,它本质上是一个多模态AI智能体。 这款工具让用户能通过输入简单的自然语言指令,来操作本地或远程的电脑。 它背后由UI-TARS和Seed-1.5-VL/...

PolyBuzz:与AI角色互动的免费聊天与角色扮演平台
PolyBuzz 是一个免费的 AI 聊天和角色扮演平台。用户可以与超过 2000 万个虚拟角色互动。这些角色涵盖动漫、电影、游戏和历史人物等多个领域。平台支持用户创建自定义角色,设计个性化的外观和背景故事。它提供自然流畅的对话体验,角色能...

Unlimited AI Chat:免费无限制的AI聊天工具
Unlimited AI Chat 是一个免费的在线AI聊天平台,用户无需注册即可使用。它支持无限制的内容生成,包括创意写作、虚构故事,甚至NSFW(不适合工作环境)内容。平台采用先进的自然语言处理技术,生成接近人类对话的响应。用户可以随时...

Polyglotta:多语言翻译与学习工具
Polyglotta 是一个专为语言爱好者和学习者设计的多语言翻译工具。它不仅提供单词或短语在多种语言中的翻译,还能展示不同语言间意义的细微变化。用户可以比较同一单词在多文化背景下的表达,深入了解语言的多样性。Polyglotta 由人工智...

VibeVoice-1.5B:微软出品的支持长音频多角色对话的语音生成模型
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...

Jan:开源离线AI助手,ChatGPT 替代品,运行本地AI模型或连接云端AI
Jan 是一个开源的 ChatGPT 替代品,能够在用户的设备上 100% 离线运行。它由 Cortex 引擎驱动,支持多种硬件平台,包括 NVIDIA GPU 和 Apple M 系列芯片。Jan 提供了丰富的模型库,用户可以下载并运行如...

Video Face Swap
Video Face Swap 是一款完全免费的 AI 换脸工具,用户可以在任何视频中轻松替换人脸。该工具支持实时或后期处理换脸,适用于视频、照片和 GIF 动画。其智能算法能够识别视频中的面部并进行精确替换,生成逼真且有趣的内容。用户可以...

Vheer:免费不限量生成AI图像和视频的在线工具
Vheer 是一个免费的在线 AI 图像生成和编辑平台,适合创作者、设计师和普通用户。用户通过输入文本描述或上传图片,即可快速生成高质量图像,无需注册或付费。平台提供文本转图像、图像风格转换、背景移除、图像转视频等功能,操作简单直观,适合零...

AI Face Swap:免费AI人脸替换、视频换脸、多人换脸工具
AI Face Swap 是一个免费的在线平台,利用人工智能技术让用户轻松实现照片、视频和GIF中的人脸替换。无需下载软件或注册账号,用户只需上传文件即可快速完成操作。网站支持多种格式,如JPG、PNG、MP4和GIF,输出结果无水印,质量...

AdpexAI:生成式AI图像、视频内容创作平台
AdpexAI 是一个集生成式AI工具于一体的在线平台,提供图像编辑、视频编辑、AI聊天和代码生成等功能。用户无需安装软件,通过浏览器即可快速创建高质量视觉内容、编写代码或与智能AI模型互动。平台支持多种尖端AI模型,如ChatGPT-4o...

Wan:基于Wan系列模型的视频和图像生成工具
Wan是一个AI驱动的视觉内容生成网站,其核心是名为Wan 2.2的开源模型。用户可以通过这个工具,将文字、图片或音频快速转换成高质量的视频。网站支持多种生成方式,包括“文字生成视频”、“图片生成视频”以及独特的“语音生成视频”功能,能够根...

Repo Prompt:依赖本地文件夹上下文进行写作、对话与优化代码
Repo Prompt是一款专为macOS平台打造的原生应用程序,致力于简化开发者使用先进AI语言模型处理本地代码的流程。该工具通过智能化的方式帮助开发者管理和修改代码文件,显著提升开发效率。其核心优势在于为开发者提供了一个流畅的AI辅助开...

Internet.io:聚合多AI模型答案的智能工作平台
Internet.io 是一个聚合多个顶级 AI 模型答案的智能平台。旨在解决单一 AI 答案可能不准确或不一致的问题。用户只需提出一个问题,就能同时获得多个领先 AI 模型的回答,方便对比和选择最可靠的答案。平台还提供低代码工具,让用户可...

闲鱼自动回复系统:闲鱼智能客服与商品自动发货工具
闲鱼自动回复系统是一个专为闲鱼平台设计的自动化客服与管理工具,基于Python和FastAPI开发,托管于GitHub。系统通过WebSocket实时连接闲鱼服务器,自动处理买家消息、发货和商品管理。支持多用户、多账号管理,提供关键词匹配、...

Open-Fiesta:同时与多个AI大模型聊天的开源工具
Open-Fiesta 是一个开源的AI聊天工具。它让用户可以在同一个界面里,同时和多个不同的大语言模型进行对话。用户最多可以选择5个模型,发送一次问题,就能并排看到每个模型的不同回答,方便直接比较。这个工具支持接入Gemini和OpenR...

AIClient-2-API:模拟AI编程客户端请求转发为标准OpenAI接口
AIClient-2-API 是一个为开发者设计的轻量化API代理工具,其核心在于模拟多种AI客户端的授权和请求过程。该项目将那些原本仅限在客户端使用的大模型服务,例如谷歌的Gemini CLI、阿里的Qwen Code Plus以及Kir...

通义听悟:阿里通义音视频内容转录AI助手
通义听悟是阿里云推出的一款工作学习AI助手,专注于音视频内容的转写和分析。它依托阿里云的强大AI模型,能够将音视频内容实时转写成文字,并提供翻译、总结、定位等功能。通义听悟支持多种语言和场景,帮助用户高效记录和阅读音视频内容,是你的音视频笔...

置顶cto.new:免费使用各类顶级大模型的的AI编程智能体
cto.new是由Engine Labs公司开发的一款AI代码智能体。它通过接入开发者已有的工具集,例如Jira、GitHub、Slack等,来理解和执行编程任务。这款智能体可以利用多种大型语言模型(包括OpenAI的GPT系列、Anthr...

置顶Had No Idea:快速生成并验证创业想法的AI工具
Had No Idea 是一个帮助用户快速生成、验证和启动创业项目的免费AI工具。它针对没有明确创业方向的用户,10分钟内从零开始生成个性化创业想法,验证市场可行性,创建品牌形象,并生成可直接用于开发的蓝图。工具支持Base44、Repli...

置顶Internet.io:聚合多AI模型答案的智能工作平台
Internet.io 是一个聚合多个顶级 AI 模型答案的智能平台。旨在解决单一 AI 答案可能不准确或不一致的问题。用户只需提出一个问题,就能同时获得多个领先 AI 模型的回答,方便对比和选择最可靠的答案。平台还提供低代码工具,让用户可...

置顶Sigma AI Browser:免费使用主流大模型的AI浏览器
Sigma AI Browser是一款由SigmaBrowser OÜ开发的先进浏览器,利用人工智能技术为用户提供更快、更智能的浏览体验。该浏览器不仅注重速度和效率,还提供了增强的安全性和个性化推荐功能,确保用户在浏览网页时获得最佳体验。S...

Jan:开源离线AI助手,ChatGPT 替代品,运行本地AI模型或连接云端AI
Jan 是一个开源的 ChatGPT 替代品,能够在用户的设备上 100% 离线运行。它由 Cortex 引擎驱动,支持多种硬件平台,包括 NVIDIA GPU 和 Apple M 系列芯片。Jan 提供了丰富的模型库,用户可以下载并运行如...

PocketPal AI
PocketPal AI 是一款开源的移动应用,旨在将小型语言模型(Small Language Models, SLMs)直接引入到你的手机中,无论是iOS还是Android用户都可以使用。它提供了一种不依赖网络的AI聊天体验,确保用户隐...

豆包
豆包综合介绍 豆包是由抖音旗下子公司开发的人工智能AI助手,国内版使用最新的云雀大模型。它是一款能够帮助用户解决问题、获取信息和提高效率的智能助手工具。豆包支持中英文,可以联网使用,并提供网页版、安卓版和iOS版本。用户可以使用手机号、抖音...

Cherry Studio:集成API/Web/本地模型的AI助手桌面客户端
Cherry Studio 是一款支持多种大语言模型(LLM)服务的桌面客户端,兼容 Windows、Mac 和 Linux 系统。它提供了丰富的个性化选项和领先的功能设计,帮助用户在多种场景下提升工作效率。用户可以通过 Cherry St...

Duck.ai:匿名使用主流大模型的AI聊天工具
Duck.ai 是一个由 DuckDuckGo 推出的在线 AI 聊天平台。它主打隐私保护,让用户可以匿名使用多种热门 AI 模型,比如 OpenAI 的 GPT-4o mini、Anthropic 的 Claude 3 Haiku、Met...

Kimi
Kimi Chat是由月之暗面(Moonshot AI)研发的智能助手,能够处理长达20万汉字的文本。Kimi拥有超大“内存”,可以快速阅读文档及上网搜索信息,为用户提供高效的信息处理和互动体验。其突破性的长文本处理能力在同类产品中领先,支...

ZenMux:协同多种AI模型辅助编程的开发工具
ZenMux是一个AI编排开发工具,其核心是Zen MCP(Model Context Protocol)服务器。它允许开发者将一个主要AI(如Claude)与多个其他顶尖AI模型(包括Gemini、OpenAI O3等)连接并协同工作。 ...

Page Assist:本地AI模型对话与检索文档的网页助手插件
Page Assist 是一个开源的浏览器扩展,旨在为用户提供与本地AI模型交互的便捷方式。通过这个扩展,用户可以在任何网页上打开一个侧边栏,与本地运行的AI模型进行互动。Page Assist 支持多种浏览器,包括Chrome、Brave...

置顶Vheer:免费不限量生成AI图像和视频的在线工具
Vheer 是一个免费的在线 AI 图像生成和编辑平台,适合创作者、设计师和普通用户。用户通过输入文本描述或上传图片,即可快速生成高质量图像,无需注册或付费。平台提供文本转图像、图像风格转换、背景移除、图像转视频等功能,操作简单直观,适合零...

置顶Lovart:将文字提示转化为专业设计的AI工具
Lovart 是一个创新的AI设计平台,通过自然语言输入将用户的创意想法转化为专业级视觉设计。用户只需用简单文字描述需求,Lovart 就能生成海报、品牌标识、视频和3D内容等多种设计资产。该平台整合了多种AI模型,如 GPT-4o、Flu...

置顶Artbreeder:超强图像控制与图像风格混合工具,适合教学使用
Artbreeder 是一个基于人工智能(AI)的协作艺术创作网站。它利用StyleGAN和BigGAN模型帮助用户生成和修改人脸、风景、绘画等图像。通过“基因”滑块操作,用户能够创造出新的变体,或者交配图片产生新的影响因子。 用户还可以上...

置顶OpenCreator:整合多种AI模型生成创意视频
OpenCreator 是一个在线工具,专为创作者设计,核心功能是把20多种生成式AI模型整合在一起。用户可以用它轻松生成创意视频,无需在不同平台间切换或支付多份订阅费。它界面简单,支持一键比较不同模型效果,按使用量付费,价格透明。无论是新...

RoboNeo:通过聊天生成和编辑视频与图像的AI工具
RoboNeo是一款人工智能内容创作工具,它通过一个像聊天软件一样的界面,让用户通过输入文字指令来生成和编辑图像与视频。用户可以输入简单的文字描述,RoboNeo就能理解并创作出相应的内容。这个工具可以用来制作最多5秒钟的短视频,也能根据文...

MagicQuill:智能交互式图像涂鸦编辑系统,精准局部涂鸦编辑
MagicQuill是一个由香港科技大学、蚂蚁集团、浙江大学和香港大学共同推出的开源AI互动式图像编辑工具。该工具旨在通过智能化和互动式的方式,实现对图像的精准局部编辑。MagicQuill提供了用户友好的界面和AI驱动的建议,使用户能够轻...

RunningHub:在线开发与分享ComfyUI工作流
RunningHub 是一个基于云端的 ComfyUI 平台,专注于帮助用户在线创建、编辑和发布 AI 应用。它无需复杂的本地安装,提供强大的 GPU 云算力支持,让用户可以轻松运行 AI 工作流。平台内置多种实用节点和热门模型,如 Flu...

即梦AI
即梦AI是一个一站式的AI创作平台,旨在为用户提供多功能且强大的创作工具。无论是图像生成、智能画布、视频生成还是音乐生成,即梦AI都能帮助用户轻松实现创意。平台支持多种创作模式,包括AI作图、AI视频、AI音乐等,用户可以通过简单的操作生成...
LiblibAI·哩布哩布:在线免费使用Stable Diffusion,每日免费生成200张图片
LiblibAI 综合介绍 LiblibAI是一个中国领先的AI图像创作平台,拥有丰富的AI创作工具和资源。用户可以在这个平台找到超过10万个免费的AI创作模型,用于图片、文字、音频等素材的创作。LiblibAI鼓励原创,提供...

可灵 AI:快手推出的生成创意图片和视频的AI工具
可灵 AI(Kling AI)是快手推出的一款新一代AI创意生产力平台,旨在通过先进的生成式AI技术,帮助用户轻松创建高质量的图片和视频内容。平台基于快手自研的可图大模型和可灵大模型(Kolors),提供了强大的图像和视频生成能力。用户可以...

Remaker:免费在线换脸工具
Remaker AI 是一个利用最新人工智能技术开发的创新工具集,支持创建和生成各种类型的内容,包括文本、图像、语音等。用户可以通过该平台进行照片和视频的面部交换、生成AI肖像、图像放大、制作会说话的照片等。Remaker AI 提供了多种...

星流
星流(Xingliu)是由LiblibAI团队开发的一款新一代AI图像创作工具,它基于自研的 Star-3 Alpha 图像生成模型,能够提供高精度、多样化的图像生成服务。旨在为设计师、摄影师和影像创作者提供强大的生产力支持。该工具基于St...

置顶Wan:基于Wan系列模型的视频和图像生成工具
Wan是一个AI驱动的视觉内容生成网站,其核心是名为Wan 2.2的开源模型。用户可以通过这个工具,将文字、图片或音频快速转换成高质量的视频。网站支持多种生成方式,包括“文字生成视频”、“图片生成视频”以及独特的“语音生成视频”功能,能够根...

置顶Animon:免费生成动漫风格短视频的AI工具
Animon 是一个专注于动漫风格视频生成的 AI 平台,由日本公司 Animon Dream Factory 开发。它通过上传静态动漫或漫画风格图像,配合简单的文字描述,快速生成 5 秒左右的动画视频。平台操作简单,适合初学者和专业人士,...

置顶Vheer:免费不限量生成AI图像和视频的在线工具
Vheer 是一个免费的在线 AI 图像生成和编辑平台,适合创作者、设计师和普通用户。用户通过输入文本描述或上传图片,即可快速生成高质量图像,无需注册或付费。平台提供文本转图像、图像风格转换、背景移除、图像转视频等功能,操作简单直观,适合零...

置顶Lovart:将文字提示转化为专业设计的AI工具
Lovart 是一个创新的AI设计平台,通过自然语言输入将用户的创意想法转化为专业级视觉设计。用户只需用简单文字描述需求,Lovart 就能生成海报、品牌标识、视频和3D内容等多种设计资产。该平台整合了多种AI模型,如 GPT-4o、Flu...

RoboNeo:通过聊天生成和编辑视频与图像的AI工具
RoboNeo是一款人工智能内容创作工具,它通过一个像聊天软件一样的界面,让用户通过输入文字指令来生成和编辑图像与视频。用户可以输入简单的文字描述,RoboNeo就能理解并创作出相应的内容。这个工具可以用来制作最多5秒钟的短视频,也能根据文...

DeepMosaics:自动去除图像和视频中的马赛克,或向其添加马赛克
DeepMosaics是一个基于语义分割和图像到图像转换技术的开源项目,旨在自动移除图片和视频中的马赛克,或向其添加马赛克效果。该项目利用深度学习的力量,为用户提供了一种高效的方法来处理马赛克图像,无论是去码还是加码。DeepMosaics...

CapCutAPI:自动化控制CapCut视频剪辑的开源工具
CapCutAPI 是一个开源项目,托管在 GitHub 上,由开发者 sun-guannan 创建。它基于 Python 开发,旨在通过代码自动化控制 CapCut(剪映)进行视频剪辑。用户可以通过编写脚本实现视频编辑的自动化,包括创建草...

Fogsight(雾象):一键生成教学动画的AI工具
Fogsight 是一个开源的 AI 动画生成工具,基于大语言模型(LLM)驱动。它能将用户输入的抽象概念或词语转化为结构完整、带中英文配音的教学动画。用户只需输入一个主题,例如“冒泡排序”或“熵增定律”,Fogsight 就会自动生成包含...

Grok Imagine:将想法和图片生成为视频和图像的AI工具
Grok Imagine 是一个多模态AI内容创作平台,它的核心功能是将用户的想法(文字描述)或静态图片,转化为动态视频和高质量图像。该平台基于先进的“Aurora”多模态引擎,让没有专业编辑技能的用户也能在几分钟内创作出具有病毒式传播潜力...

Pippit AI:一键生成营销视频与图片的智能创作工具
Pippit AI 是 CapCut 推出的一款智能创作工具,专注于简化营销内容的生产流程。用户只需输入产品链接或上传素材,平台即可快速生成视频、图片和 AI 头像,适合社交媒体和电商平台使用。Pippit 提供一键生成、批量处理、自动发布...

可灵 AI:快手推出的生成创意图片和视频的AI工具
可灵 AI(Kling AI)是快手推出的一款新一代AI创意生产力平台,旨在通过先进的生成式AI技术,帮助用户轻松创建高质量的图片和视频内容。平台基于快手自研的可图大模型和可灵大模型(Kolors),提供了强大的图像和视频生成能力。用户可以...

SkyReels:AI视频短剧创作平台,擅长生成动作自然的全景人像
SkyReels 是一个专注于 AI 视频创作的在线平台,旨在帮助用户快速将文本脚本或创意想法转化为高质量短视频。无论你是内容创作者、营销人员还是普通用户,只需输入文字,平台就能自动生成带有逼真语音、精准字幕和专业视觉效果的视频内容。Sky...

置顶OpenWispr:隐私优先的语音转文字桌面应用
OpenWispr 是一款开源的桌面语音转文字应用,基于 OpenAI Whisper 技术,将用户语音快速转换为文本。它提供本地和云端处理选项,强调隐私保护,数据可完全留存在本地。用户通过全局热键快速启动听写,文本自动粘贴至光标位置,适合...

置顶MiniMax Audio(海螺语音):生成自然语音的AI工具
MiniMax Audio 是 MiniMax 公司推出的一款 AI 语音生成工具,核心特点是快速将文字转为高相似度的自然语音。它基于 Speech-02 模型,语音合成相似度高达 99%,音质达到录音室级别,支持超过 30 种语言和多种口...

置顶通义听悟:阿里通义音视频内容转录AI助手
通义听悟是阿里云推出的一款工作学习AI助手,专注于音视频内容的转写和分析。它依托阿里云的强大AI模型,能够将音视频内容实时转写成文字,并提供翻译、总结、定位等功能。通义听悟支持多种语言和场景,帮助用户高效记录和阅读音视频内容,是你的音视频笔...

Demucs:免费分离音乐音轨的开源工具
Demucs 是一个开源的音乐音轨分离工具,专注于将混合音乐分解为独立音轨,如人声、鼓、贝斯和其他伴奏部分。它由 Alexandre Défossez 开发,最初由 Meta AI 支持,现由作者在 GitHub 上维护。Demucs 使用...

gibberlink:两个AI智能体间高效音频通信的演示项目
gibberlink 是一个由开发者 PennyroyalTea 在 GitHub 上开源的项目,专注于实现两个对话型 AI 智能体之间的通信优化。当两个 AI 智能体通过电话交谈并识别出彼此均为 AI 时,它们会从人类语言(英语)切换到一...

小智 AI 聊天机器人
小智 AI 聊天机器人是一个基于ESP32开发板的开源项目,旨在帮助用户构建自己的AI聊天伴侣。该项目由虾哥开发,主要用于教学目的,帮助更多人入门AI硬件开发,并了解如何将大语言模型应用到实际的硬件设备中。项目支持多种语言的语音识别和对话功...

Ondoku:在线文本朗读工具|文本转语音|图片转语音朗读
Ondoku 综合介绍 Ondoku是一款在线文字转语音软件,用户可将文本内容输入网站提供的文本框,软件能够根据用户需要将文章转换成语音读出,并支持将语音保存为MP3格式文件。这项服务既适合即时聆听,也适合生成音频内容供日后使用。 Ondo...

EmotiVoice(易魔声):多声音与情感提示控制的文本转语音引擎
EmotiVoice是一个由网易有道开发的多声音和情感提示控制的文本转语音(TTS)引擎。此开源TTS引擎支持英文和中文,拥有超过2000种不同的声音,并具备情感合成能力,能够创建带有快乐、兴奋、悲伤和愤怒等多种情绪的语音。它提供了易于使用...

Kokoro TTS API:快速文本转语音的Docker化FastAPI封装(Kokoro-82M模型)
Kokoro-FastAPI是一个基于Docker的FastAPI封装,旨在为Kokoro-82M文本转语音模型提供支持。该项目支持NVIDIA GPU加速,并提供了队列处理和自动拼接功能,使得生成长文本的语音输出更加高效和连贯。项目由Gi...

OpenAI Edge TTS:利用 Edge TTS 的免费文本转语音API,兼容 OpenAI 格式
OpenAI Edge TTS 是一个开源项目,提供与 OpenAI 兼容的本地文本转语音(TTS)API。该项目使用 Microsoft Edge 的在线文本转语音服务,允许用户生成高质量的语音输出。OpenAI Edge TTS 支持多...

“Always-On” Deepseek AI Assistant:基于Deepseek-V3打造智能语音交互系统
Always-On AI Assistant是一个创新的AI助手项目,它通过整合Deepseek-V3、RealtimeSTT和Typer等先进技术,打造了一个功能强大的永久在线AI助理系统。该项目特别针对工程开发场景进行优化,提供了完整的...
edge-tts:文本转语音Python模块|免费文本转语音服务
edge-tts是一个开源的Python模块,允许用户在Python代码中使用微软Edge的在线文本转语音服务,而无需Microsoft Edge浏览器、Windows操作系统或API密钥。提供了命令行下直接使用的edge-t...

置顶ARGO:在个人电脑上部署和使用的AI智能体客户端
ARGO 是一款开源的AI智能体(AI Agent)平台,它的核心设计理念是“本地优先”,让用户可以在自己的个人电脑上搭建一个功能强大的专属AI助手。这个平台整合了AI领域的多种先进技术,比如能够让AI自主思考和规划任务的多智能体系统、方便...

置顶MAESTRO:拥有本地知识库和多代理协作的深度研究助手
MAESTRO 是一个开源的 AI 研究工具,旨在帮助用户处理复杂的科研任务。它通过文档管理、检索增强生成(RAG)和多代理协作,提供从研究规划到报告生成的完整流程。用户可以上传 PDF 文档,借助 AI 代理完成信息检索、分析和报告撰写。...

置顶蛙蛙写作:快速生成小说大纲与内容的AI写作工具
蛙蛙写作 是一款专为小说作者设计的AI智能写作工具。它能帮助用户快速生成小说大纲、角色设定和正文内容,适合需要灵感或高效创作的写作者。用户通过微信扫码登录,无需下载软件,直接在网页端操作。平台提供自动生成剧情、润色文风等功能,操作简单,适合...

置顶Cotrans:一站式漫画图片翻译器(开源免费)
manga-image-translator(Cotrans翻译器开源版),用于翻译漫画或图片中的文字。提供命令行交互方式和在线演示,拥有批量转换模式、web服务器模式等多样化的使用选项。可设置多种语言目标翻译和识别参数,配有详尽的安装和使...

同言翻译 (Transync AI):支持会议和通话的AI实时翻译工具
同言翻译 (Transync AI) 是一款利用人工智能技术实现实时语音翻译的软件。它可以在跨语言的线上会议、线下交流或国际通话中,即时翻译对话内容,并以双语分屏字幕的形式展示出来。软件的核心是其低延迟的翻译能力,能够自动识别发言者的语言并...

Connected Papers
Connected Papers是一款专为研究员和科学家设计的学术论文探索工具。通过构建论文间的关联图谱,帮助用户可视化探索各自研究领域内相关论文。用户可输入论文标识符,如DOI、arXiv、论文URL、论文标题、Semantic Scho...

LLPlayer
LLPlayer 是一款专为语言学习者设计的开源媒体播放器,托管于 GitHub,由开发者 umlx5h 创建。它集成了多种实用功能,如双语字幕显示、AI 自动生成字幕、实时翻译和单词查询等,旨在帮助用户通过观看视频提升语言能力。无论是学习...

Liner
Liner是一款由GPT-4/Cloude驱动的AI搜索引擎,旨在帮助用户更高效地查找、管理和利用在线内容。无论是学术研究、专业写作还是日常信息整理,Liner都能提供智能化的解决方案。通过浏览器扩展或移动应用,用户可以轻松保存和标注网页内...

Translator
一个可以将电子书翻译成指定语言(原文译文对照)的 Calibre 插件。 主要功能 支持多种翻译模式:批量模式和高级模式,满足不同的使用场景 支持所选翻译引擎所支持的语言(如Google翻译支持13...

PopAI
PopAI致力于通过创新AI技术改善教育场景的应用,提供个性化学习体验;是一个智能工作空间平台,集成了多种AI工具以加强你的文档互动、图像生成以及PPT创建的能力。 PopAI可能由国内零一万物推出。  ...

Speak
Speak 是一款创新的 AI 英语学习应用程序,旨在通过与 AI 对话来帮助用户提升英语口说能力。该应用程序利用最先进的人工智能技术,提供个性化的课程和即时反馈,帮助用户在短时间内显著提高英语水平。Speak 提供多种学习模式,包括真人视...

Bohrium(玻尔):为全球科学家提供AI驱动的科研工具
Bohrium是深势科技开发的一款AI驱动的科研工具,旨在为全球科学家提供高效、智能的学术研究支持。平台整合了超过1.6亿篇学术论文、专利和学者档案,通过AI技术帮助用户快速检索、分析和理解科研内容。Bohrium以“AI for Scie...

置顶cto.new:免费使用各类顶级大模型的的AI编程智能体
cto.new是由Engine Labs公司开发的一款AI代码智能体。它通过接入开发者已有的工具集,例如Jira、GitHub、Slack等,来理解和执行编程任务。这款智能体可以利用多种大型语言模型(包括OpenAI的GPT系列、Anthr...

置顶Kode:Claude Code 开源优化版
Kode是一个强大的AI助手,它直接在你的电脑终端里运行。你可以把它看作一个和你一起工作的程序员,它能理解你的代码库,帮你编辑文件,还能执行命令行指令来处理整个开发流程。和其他工具不同的是,Kode可以同时使用多种不同的大模型,比如Deep...

置顶Storydoc:快速创建与编辑互动演示文稿的智能工具
Storydoc 是一个帮助用户快速创建互动演示文稿的在线平台。它通过人工智能技术简化设计流程,让用户无需专业技能也能制作出吸引人的幻灯片。Storydoc 提供多种模板,适用于营销、销售、投资、招聘和报告等多种场景。它的特色是自动调整设计...

置顶Had No Idea:快速生成并验证创业想法的AI工具
Had No Idea 是一个帮助用户快速生成、验证和启动创业项目的免费AI工具。它针对没有明确创业方向的用户,10分钟内从零开始生成个性化创业想法,验证市场可行性,创建品牌形象,并生成可直接用于开发的蓝图。工具支持Base44、Repli...

Codeium(Windsurf Editor):免费的AI代码补全与聊天工具,Windsurf以对话方式编写完整项目代码
Codeium是一款免费的AI代码补全与聊天工具,旨在提升开发者的编程效率。它支持超过70种编程语言,并与40多种集成开发环境(IDE)兼容。Codeium不仅提供代码自动补全功能,还具备代码生成、代码解释和聊天功能,帮助开发者更快地编写高...

Roo Code(Roo Cline):基于Cline的增强版自主编程助手,智能化IDE编程助手
Roo Code(前称Roo Cline)Roo Code(Roo Cline) 是一个基于 Cline 的增强版自主编程助手,它是一个强大的 VS Code 扩展插件。这个工具能够在您的集成开发环境(IDE)中实现自主编码,具备创建和编辑...

Fogsight(雾象):一键生成教学动画的AI工具
Fogsight 是一个开源的 AI 动画生成工具,基于大语言模型(LLM)驱动。它能将用户输入的抽象概念或词语转化为结构完整、带中英文配音的教学动画。用户只需输入一个主题,例如“冒泡排序”或“熵增定律”,Fogsight 就会自动生成包含...

Serena:语义检索和编辑代码的免费MCP工具
Serena 是 Oraios AI 团队开发的一款免费开源编程工具,托管在 GitHub 上。它是一个强大的代码助手,可以直接在你的代码库中工作,帮助开发者分析、编辑和执行代码。Serena 通过语言服务器协议(LSP)实现语义分析,能快...

Kilo Code:具有简洁使用体验的Roo Code分支
Kilo Code 是一个开源的 Visual Studio Code(简称 VS Code)扩展插件。它利用人工智能技术帮助用户更高效地编写代码。这个项目由 Kilo-Org 团队开发,最初 fork 自 Roo Code,后续加入了更多...

Qoder:能自主完成软件开发的 AI IDE 编程平台
Qoder是由阿里巴巴推出的一款AI智能体编程平台,它为处理真实的软件开发项目而设计。与简单的代码补全工具不同,Qoder内置的AI智能体能够深入理解整个项目的代码库和相关文档。开发者可以用简单的自然语言下达指令,将复杂的开发任务交给AI智...

Trae:字节跳动推出的免费AI编程工具
Trae是一款由字节跳动推出的免费AI编程工具,专为中文开发者设计的集成开发环境(IDE)。它利用Claude 3.5和GPT-4o等先进的AI模型,帮助开发者快速生成、优化和调试代码。Trae支持原生中文界面,提供了Builder模式和C...

Onyx:连接企业知识库的智能AI聊天平台
Onyx(原名Danswer)是一个开源的AI聊天平台,由onyx-dot-app团队开发,旨在帮助企业整合和管理文档、应用及员工数据。它提供丰富的聊天功能,支持连接任意大语言模型(LLM),并通过40多个连接器(如Google Drive...

置顶Akool:生成图像和视频营销素材|视频换脸|视频翻译|人像说话
Akool是一个专注于个性化视觉营销和广告。通过先进的AI技术,AKOOL能够帮助用户轻松创建高质量、个性化的视频内容,适用于广告、在线教育、艺术创作和电子商务等多个领域。 它提供了面部换位、真实头像创建、说话照片生成、图像生成器和背景更改...

PolyBuzz:与AI角色互动的免费聊天与角色扮演平台
PolyBuzz 是一个免费的 AI 聊天和角色扮演平台。用户可以与超过 2000 万个虚拟角色互动。这些角色涵盖动漫、电影、游戏和历史人物等多个领域。平台支持用户创建自定义角色,设计个性化的外观和背景故事。它提供自然流畅的对话体验,角色能...

Video Face Swap
Video Face Swap 是一款完全免费的 AI 换脸工具,用户可以在任何视频中轻松替换人脸。该工具支持实时或后期处理换脸,适用于视频、照片和 GIF 动画。其智能算法能够识别视频中的面部并进行精确替换,生成逼真且有趣的内容。用户可以...

FaceFusion:视频换脸增强工具|语音同步视频嘴型动作
FaceFusion是一个集成了面部交换与增强功能的先进云平台,优化了“图像到视频”、“图像到图像”的交换过程,并拥有5个专业模型,以确保无瑕的输出。此外,它通过7种模型进行面部增强,使用3种不同模型提升视频和图片质量,提供了一系列强大的功...

HeyReal:无限制的AI角色聊天互动平台
HeyReal 是一个创新的在线平台,专注于提供高度个性化和无限制的AI聊天体验。用户可以通过这个网站创建并与虚拟角色互动,这些角色可以根据用户的喜好进行深度定制,包括外观、性格和对话风格。无论是寻找虚拟陪伴、进行创意角色扮演,还是探索多样...

roop-unleashed:基于Roop优化的全能换脸工具
Roop-Unleashed 是一个基于 Python 的开源 AI 换脸工具,继承自 s0md3v 的 Roop 项目,由开发者 C0untFloyd 继续维护并更名为 Roop-Unleashed。它通过深度学习技术实现图片和视频中的面...

Paperless-AI:使用AI自动分析和标记文档,适用 paperless-ngx 文档管理系统
Paperless-AI 是一个创新的文档自动化分析工具,专门为 Paperless-ngx 文档管理系统设计。它巧妙地结合了 OpenAI API 和 Ollama 等多种先进的人工智能模型(包括 Mistral、LLaMA、PHI-3 ...

AIRI:自托管的AI虚拟伴侣,支持实时语音和游戏互动
AIRI 是一个开源的自托管 AI 虚拟伴侣项目,旨在为用户提供可定制的数字角色体验。它以大型语言模型(LLM)为核心,支持实时语音聊天、游戏互动(如 Minecraft 和 Factorio)以及虚拟角色(VRM/Live2D)动画。用户...

VisoMaster:强大且易用的图片/视频换脸和编辑软件
VisoMaster 是一款强大且易用的视频换脸和编辑工具,利用人工智能技术实现自然逼真的换脸效果。无论是图像还是视频,VisoMaster 都能通过简单的操作生成高质量的换脸结果,适合普通用户和专业人士使用。该工具支持多种输入和输出格式,...

Avatarify Python:视频会议中使用虚拟人像进行视频通话
Avatarify Python是一个开源的人工智能视频会议工具,基于First Order Motion Model技术,能够实时将用户的面部表情和动作映射到任意头像上。它支持在Zoom、Skype、Teams等各类视频会议软件中使用,让...

DeepFaceLive:经典实时人脸替换工具
DeepFaceLive 是一个开源的实时人脸替换工具,主要用于视频通话和直播。用户可以通过摄像头或视频中的人脸进行替换,使用预训练的模型实现高质量的人脸替换效果。该工具支持多种人脸模型,并允许用户自行训练和导入新的模型。DeepFaceL...

Open-LLM-VTuber:实时语音互动的Live2D动画AI虚拟伴侣
Open-LLM-VTuber 是一个开源项目,允许用户通过语音和文字与大型语言模型(LLM)互动,并结合Live2D技术呈现动态虚拟角色。它支持Windows、macOS和Linux,可完全离线运行,兼具网页版和桌面客户端两种模式。用户可...

置顶Had No Idea:快速生成并验证创业想法的AI工具
Had No Idea 是一个帮助用户快速生成、验证和启动创业项目的免费AI工具。它针对没有明确创业方向的用户,10分钟内从零开始生成个性化创业想法,验证市场可行性,创建品牌形象,并生成可直接用于开发的蓝图。工具支持Base44、Repli...

置顶ListenHub:将网页、文件快速转为AI播客的工具
ListenHub 是一个利用人工智能技术将网页、文档或用户输入的内容快速转化为播客的平台。它支持中英文语音合成,用户只需上传文件、输入话题或粘贴链接,即可生成自然流畅的播客音频。平台操作简单,适合移动端使用,方便用户在通勤、运动或空闲时收...

置顶KrillinAI
KrillinAI 是一个开源的视频处理工具,专注于用人工智能帮助用户翻译视频并自动配音。它能从视频下载开始,一直到生成适配不同平台的成品,全程只需几次点击。开发者在 GitHub 上提供了免费代码,用户可以下载到本地运行。KrillinA...

置顶LLPlayer
LLPlayer 是一款专为语言学习者设计的开源媒体播放器,托管于 GitHub,由开发者 umlx5h 创建。它集成了多种实用功能,如双语字幕显示、AI 自动生成字幕、实时翻译和单词查询等,旨在帮助用户通过观看视频提升语言能力。无论是学习...

即梦AI
即梦AI是一个一站式的AI创作平台,旨在为用户提供多功能且强大的创作工具。无论是图像生成、智能画布、视频生成还是音乐生成,即梦AI都能帮助用户轻松实现创意。平台支持多种创作模式,包括AI作图、AI视频、AI音乐等,用户可以通过简单的操作生成...

Pippit AI:一键生成营销视频与图片的智能创作工具
Pippit AI 是 CapCut 推出的一款智能创作工具,专注于简化营销内容的生产流程。用户只需输入产品链接或上传素材,平台即可快速生成视频、图片和 AI 头像,适合社交媒体和电商平台使用。Pippit 提供一键生成、批量处理、自动发布...

可灵 AI:快手推出的生成创意图片和视频的AI工具
可灵 AI(Kling AI)是快手推出的一款新一代AI创意生产力平台,旨在通过先进的生成式AI技术,帮助用户轻松创建高质量的图片和视频内容。平台基于快手自研的可图大模型和可灵大模型(Kolors),提供了强大的图像和视频生成能力。用户可以...

SoniTranslate
SoniTranslate 是一个强大且用户友好的视频多语言配音工具,旨在提供视频翻译和同步音频的解决方案。它利用先进的语音识别和机器翻译技术,将视频内容翻译成多种语言,并保持音频同步。该项目基于 Gradio 库构建,提供了用户友好的 W...

Suno:用想象力创作音乐|AI音乐生成软件
与许多 AI 音乐应用程序不同,Suno(发音为 soon-oh,在印地语中意为“听”)专注于用原创人声创作原创曲调,而不是克隆或模仿流行艺术家的声音或歌曲。 Suno 综合介绍 Suno是一个让您用想象力和AI创作歌曲的平台...

Kolors Virtual Try On:高效的虚拟试穿/模特换装,文本到图像生成模型
Kolors Virtual Try-On 是由 Kwai-Kolors 团队在 Hugging Face 平台上推出的一款虚拟试穿应用。该应用利用先进的人工智能技术,帮助用户在虚拟环境中试穿不同颜色的服装,从而找到最适合自己的颜色。用户只...

Vidnoz AI:只需一张照片即可生成数字人演讲视频,多种免费视频生成工具
Vidnoz是一款免费的AI视频生成平台,可在1分钟内快速创建AI视频。不需要成本、下载和经验。平台提供500+ AI虚拟人物,470+逼真AI配音以及500+模板。通过Vidnoz AI视频生成器,用户可以更快地创建视频,从而提高投资回报...
RoomGPT:上传房间照片,使用AI重新设计
RoomGPT是一个由GitHub用户Nutlope开发的开源项目,允许用户上传房间照片并利用人工智能技术生成重新设计的房间版本。该项目旨在让用户无需昂贵的设计师费用即可获得专业级的室内设计建议。 功能列表 上传房间照片:用户...

置顶RenderNet
RenderNet 是一款基于人工智能技术专注于创作保持人物一致性的图像与视频的生成工具。用户可以通过简单的文本提示生成角色驱动的图像和视频。该工具支持多种图像和视频生成选项,用户可以根据需要进行自定义,并将生成的内容用于各种项目中。 &n...

Pippit AI:一键生成营销视频与图片的智能创作工具
Pippit AI 是 CapCut 推出的一款智能创作工具,专注于简化营销内容的生产流程。用户只需输入产品链接或上传素材,平台即可快速生成视频、图片和 AI 头像,适合社交媒体和电商平台使用。Pippit 提供一键生成、批量处理、自动发布...

MoneyPrinter V2:自动生成YouTube短视频与Twitter内容并发布
MoneyPrinter V2 是由FujiwaraChoki开发的一个开源项目,旨在通过自动化手段帮助用户在线赚钱。该项目主要集成了Twitter自动化、YouTube短视频生成以及联盟营销等功能。用户可以利用Python脚本进行内容发布...

Unify:AI驱动的GTM工具,高效分析潜在买家数据
Unify 是一个专为销售和营销团队打造的去市场(GTM, Go-To-Market)平台。它利用人工智能(AI)和意图数据,帮助企业快速找到准备购买的潜在客户,并优化销售流程。Unify 的核心在于“温性外联”,通过分析客户的行为信号(比...

Topview:一键创建病毒式营销视频,AI虚拟形象展示并讲解商品
Topview 是一款基于人工智能的在线视频编辑工具,旨在帮助用户通过上传简单的材料和想法,生成高质量的病毒式营销视频。它利用先进的AI技术,包括GPT-4o来生成脚本,并结合来自TikTok和YouTube的成功广告学习,确保视频具有吸引...

闲鱼自动回复系统:闲鱼智能客服与商品自动发货工具
闲鱼自动回复系统是一个专为闲鱼平台设计的自动化客服与管理工具,基于Python和FastAPI开发,托管于GitHub。系统通过WebSocket实时连接闲鱼服务器,自动处理买家消息、发货和商品管理。支持多用户、多账号管理,提供关键词匹配、...

VidAU:视频换脸与视频多语言翻译工具
VidAU.AI 是一款集视频和音频生成于一体的AI工具,提供视频代言人、换脸、多语言翻译、字幕和水印去除、视频混剪和编辑等多种功能。它支持创建包括短剧、广告、销售推介、社交媒体内容和培训视频在内的多样化视频。VidAU.AI 支持音视频内...

即创:依托巨量引擎生成电商营销物料,快速发布适合抖音推广的商品讲解视频
即创介绍 即创是抖音推出的一站式智能创意生产与管理平台,旨在为创作者提供高效、便捷、专业的内容创作服务。即创平台集成了多种AI功能,如智能成片、AI视频脚本、图文工具、商品卡工具、AI直播背景、AI直播脚本等,可以帮助创作者快速生成优质的视...

AI Chatbot Supabase:开源的Next.js和Supabase构建的AI聊天机器人
AI Chatbot Supabase是一个基于Next.js和Supabase构建的开源AI聊天机器人模板。该项目由Vercel开发,旨在提供一个功能全面、可定制的聊天机器人解决方案。通过集成Supabase数据库,用户可以实现聊天记录和...

Arcads:AI驱动创意视频广告生成器
Arcads是一个AI驱动的视频广告创作平台,仅需用户提供文本或产品链接,即可迅速转换成高质量、情感丰富的短视频广告。Arcads拥有大量AI演员库,通可以将文本脚本转化为引人入胜、真实且吸引人的视频广告。过利用先进的人工智能和唇同步技术,...

文心智能体平台:建立在完整分发渠道和商业闭环的智能体应用
介绍 文心智能体平台AgentBuilder 是百度推出的基于文心大模型的智能体(Agent)平台,支持广大开发者根据自身行业领域、应用场景,选取不同类型的开发方式,打造大模型时代的产品能力。开发者可以通过 prompt 编排的方式低成本开...

Vsub:输入文字或模板生成无需露脸的病毒营销视频
Vsub 是一个专注于自动化视频内容制作的平台,旨在帮助内容创作者快速生成无脸视频(faceless videos)。它利用人工智能技术,允许用户通过输入文本或选择预设模板来创建适合YouTube、TikTok等平台的视频内容。特别强调其S...

置顶ARGO:在个人电脑上部署和使用的AI智能体客户端
ARGO 是一款开源的AI智能体(AI Agent)平台,它的核心设计理念是“本地优先”,让用户可以在自己的个人电脑上搭建一个功能强大的专属AI助手。这个平台整合了AI领域的多种先进技术,比如能够让AI自主思考和规划任务的多智能体系统、方便...

置顶dots.ocr:多语言文档布局解析的统一视觉-语言模型
dots.ocr 是一个强大的多语言文档解析工具,基于 1.7B 参数的视觉-语言模型(VLM),能够同时进行布局检测和内容识别。它在 OmniDocBench 等基准测试中展现了最先进的性能,特别是在文本、表格和阅读顺序解析方面表现出色。...

置顶MAESTRO:拥有本地知识库和多代理协作的深度研究助手
MAESTRO 是一个开源的 AI 研究工具,旨在帮助用户处理复杂的科研任务。它通过文档管理、检索增强生成(RAG)和多代理协作,提供从研究规划到报告生成的完整流程。用户可以上传 PDF 文档,借助 AI 代理完成信息检索、分析和报告撰写。...

置顶MiniMax Agent:支持多模态交互的智能AI助手
MiniMax Agent 是一个基于先进多模态大语言模型的智能AI助手,旨在提升用户的生产力和创造力。它由上海MiniMax公司开发,成立于2021年,获得阿里巴巴等多家投资机构支持。MiniMax Agent通过集成文本、图像、语音和视...

Sherpa-ONNX:使用ONNXRuntime实现离线语音识别和合成
sherpa-onnx 是由 Next-gen Kaldi 团队开发的一个开源项目,旨在提供高效的离线语音识别和语音合成解决方案。它支持多种平台,包括 Android、iOS、Raspberry Pi 等,能够在没有网络连接的情况下进行实时...

Chatlog:提取和查询微信聊天记录的开源工具
Chatlog 是一个开源工具,专注于从微信本地数据库提取和查询聊天记录。它支持微信 3.x 和 4.0 版本,覆盖 Windows 和 macOS 系统。用户可以通过命令行、终端界面或 HTTP API 操作,查看聊天记录、联系人、群聊和...

Paperless-AI:使用AI自动分析和标记文档,适用 paperless-ngx 文档管理系统
Paperless-AI 是一个创新的文档自动化分析工具,专门为 Paperless-ngx 文档管理系统设计。它巧妙地结合了 OpenAI API 和 Ollama 等多种先进的人工智能模型(包括 Mistral、LLaMA、PHI-3 ...

Marker:快速将PDF转换为Markdown的开源工具
Marker 是一个基于深度学习的文档处理工具,旨在将 PDF 文件快速准确地转换为 Markdown 格式。它支持多种文档类型,特别优化了书籍和科学论文的转换。Marker 能够去除页眉页脚等多余内容,格式化表格和代码块,并提取和保存图像...

Reader API:网页内容提取工具,HTML转换为Markdown格式
Jina AI的Reader项目是一个开源工具(Reader 开源地址),可将任何URL通过添加前缀https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM)的输入格式,...

OCRmyPDF:将扫描PDF转为可搜索文本的开源工具
OCRmyPDF 是一个开源的命令行工具,专门用于为扫描的PDF文件添加光学字符识别(OCR)文本层,使其变为可搜索、可复制的文档。它基于Python开发,使用Tesseract OCR引擎,能准确识别图像中的文字,并将其嵌入PDF中,保持...

Ollama OCR:使用Ollama中视觉模型提取图像中的文本
Ollama OCR是一个强大的光学字符识别(OCR)工具包,它利用Ollama平台提供的最先进视觉语言模型来从图像中提取文本。该项目既可作为Python包使用,也提供了用户友好的Streamlit网页应用程序界面。它支持多种视觉模型,包括...

Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR
Docling 是一个强大的文档解析和导出工具,支持多种文档格式,包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导出为 HTML、Markdown 和 JSON 格...

置顶VideoMind
VideoMind 是一个开源的多模态AI工具,专注于长视频的推理、问答和摘要生成。它由香港理工大学的刘晔(Ye Liu)和新加坡国立大学Show Lab的团队共同开发。工具模仿人类理解视频的方式,把任务拆成规划、定位、验证和回答等步骤,逐...

IndexTTS:支持中英文混合的文本转语音工具
IndexTTS 是一个开源的文本转语音(TTS)工具,托管在 GitHub 上,由 index-tts 团队开发。它基于 XTTS 和 Tortoise 技术,通过改进模块设计,提供高效且高质量的语音合成。IndexTTS 使用了数万小时...

Wan2.2:开源视频生成模型,支持高效文本和图像转视频
Wan2.2 是由阿里巴巴通义实验室开发的开源视频生成模型,专注于通过文本或图像生成高质量视频。它采用混合专家(MoE)架构,通过分离高噪声和低噪声阶段的去噪过程,显著提升生成质量,同时保持计算效率。Wan2.2 支持 720P@24fps...

Orpheus-TTS:生成自然中文语音的文本转语音工具
Orpheus-TTS 是一个开源的文本转语音(TTS)系统,基于 Llama-3b 架构开发,目标是生成接近人类自然语音的音频。它由 Canopy AI 团队推出,支持英语、西班牙语、法语、德语、意大利语、葡萄牙语和汉语等多种语言。系统能...

Qwen2.5-Omni
Qwen2.5-Omni 是阿里巴巴云 Qwen 团队开发的一款开源多模态 AI 模型。它能处理文本、图像、音频和视频等多种输入,并实时生成文本或自然语音响应。这款模型于 2025 年 3 月 26 日发布,代码和模型文件托管在 GitHu...

OmniGen
OmniGen 是一个由 VectorSpaceLab(智源) 开发的“通用”图像生成模型,允许用户通过简单的文本提示或多模态输入来创建多样化且具有上下文丰富的视觉效果。它特别适合于需要识别人物和一致性角色渲染的场景。用户可以上传最多三张图...

LTX Video(LTXV):生成高质量视频的实时视频生成开源模型
LTX-Video是由Lightricks开发的首个基于DiT(Diffusion Transformer)的实时视频生成模型。该模型能够在768×512分辨率下以24帧每秒的速度生成高质量视频,速度快于观看视频的时间。LTX-V...

StarVector:从图像和文字生成SVG矢量图的基础模型
StarVector 是一个开源项目,它由 Juan A. Rodriguez 等开发者创建,目的是将图像和文字转化为可缩放矢量图形(SVG)。这个工具使用视觉语言模型,能够理解图像内容和文字指令,生成高质量的 SVG 代码。它的核心特点是...

VibeVoice-1.5B:微软出品的支持长音频多角色对话的语音生成模型
VibeVoice-1.5B是微软研究院发布的一款前沿的开源文本转语音(Text-to-Speech, TTS)模型。 它专门用于生成富有表现力的、长篇幅的、多角色对话音频,例如播客或有声读物。 VibeVoice的核心创新在于它使用了以7...

DeepSeek-TNG-R1T2-Chimera:德国 TNG 发布的 DeepSeek 增强版
DeepSeek-TNG-R1T2-Chimera 是由 TNG Technology Consulting GmbH 开发的一款开源大型语言模型,托管在 Hugging Face 平台上。该模型于 2025 年 7 月 2 日发布,是 D...

Kimi-Audio:开源音频处理与对话基础模型
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,结合创新的混合架构,在...

MiniMax Speech 02
随着人工智能技术的不断演进,个性化和高自然度的语音交互已成为众多智能应用的关键需求。然而,现有的文本转语音 (TTS) 技术在满足大规模个性化音色、多语种覆盖以及高度真实情感表达方面仍面临挑战。针对这些行业痛点,MiniMax Speech...
cto.new是由Engine Labs公司开发的一款AI代码智能体。它通过接入开发者已有的工具集,例如Jira、GitHub、Slack等,来理解和执行编程任务。这款智能体可以利用多种大型语言模型(包括OpenAI的GPT系列、Anthr...
Kode是一个强大的AI助手,它直接在你的电脑终端里运行。你可以把它看作一个和你一起工作的程序员,它能理解你的代码库,帮你编辑文件,还能执行命令行指令来处理整个开发流程。和其他工具不同的是,Kode可以同时使用多种不同的大模型,比如Deep...
Agentation 是一款专为前端开发者设计的轻量级辅助工具,旨在解决人与AI编程助手(如 Claude Code、Cursor、Windsurf)之间沟通 UI 问题时的“上下文缺失”难题。在传统开发流程中,当开发者在网页上发现样式错误...
Antigravity-Manager是一个桌面工具。它帮助用户管理多个AI账号。用户可以轻松切换账号。工具支持Gemini和Claude等模型。核心是提供本地API中转站。用户不用担心账号限额问题。工具用Tauri v2和React构建。...
LittleCrawler 是一款基于 Python 异步编程技术构建的现代化社交媒体数据采集框架。它专为需要获取公开社交媒体数据的开发者和数据分析师设计,能够自动化地从主流社交平台(目前支持小红书、知乎、闲鱼/小黄鱼)收集信息。与传统的单...
智谱AI输入法(AutoTyper)是由智谱AI推出的一款桌面端智能输入工具,旨在通过大模型技术彻底改变人机交互中的文本输入体验。该软件基于GLM-ASR语音识别模型和AutoGLM智能体能力,打破了传统输入法仅能“打字”的局限。它不仅提供...
AutoMusic.ai 是一个通过人工智能技术降低音乐创作门槛的在线平台。它的核心逻辑非常简单:用户不再需要掌握乐理知识、演奏乐器或使用复杂的数字音频工作站(DAW),只需输入一段文字描述或具体的歌词,就能生成一首完整的歌曲。这不仅包括背...
Soar2 AI 是一个基于Web的AI视频生成平台,其核心价值在于降低高质量AI视频创作的门槛。该平台宣称集成了OpenAI Sora 2和Google Veo 3.1等先进的视频生成模型架构,允许用户通过简单的文本描述或上传静态图片,快...
SociaVault 是一款专为开发者设计的社交媒体数据抓取 API 工具,旨在解决数据采集过程中常见的反爬虫限制和基础设施维护难题。它提供了一个统一的 REST API 接口,能够从包括 Instagram、TikTok、Twitter/...
OllaMan 是一款专为 Ollama 设计的跨平台桌面图形界面(GUI)客户端,旨在解决使用命令行(CLI)操作 Ollama 不够直观的问题。它为用户提供了一个优雅、现代化的操作界面,让管理和使用本地大语言模型(如 Llama 3, ...
DeepSwap 是一个基于网页的在线人工智能工具,主要功能是将视频、照片或 GIF 动图中的人脸替换为用户指定的人脸。该平台运行在云端服务器上,利用深度学习模型识别面部特征(如五官位置、表情和光照),并将源人脸的特征映射到目标素材上。由于...
OceanBase SeekDB 是 OceanBase 数据库核心组件中专为 AI 时代打造的向量检索引擎。它并非一个独立的、需要单独运维的数据库产品,而是将向量数据库的能力完全内嵌于成熟的分布式关系型数据库 OceanBase 之中。从...

互联网的流量逻辑正在发生根本性的重构。过去,我们在 Google 或百度上争夺“十条蓝色链接”的头把交椅;现在,ChatGPT、Claude 和 Perplexity 等 AI 工具正在成为新的守门人。这种转变带来了一个残酷的新现实:即使你...

对于身处特定网络环境的开发者而言,Google 最新发布的 AI IDE —— Antigravity,带来了一种颇为讽刺的体验:软件界面设计得极简优雅,启动速度飞快,但核心功能却完全瘫痪。 最典型的症状莫过于此:启动软件后,UI 渲染完美...

在当前的 Web 开发领域,借助强大的云平台实现个人或企业网站的快速、免费托管已成为一种主流选择。Cloudflare 不仅以其领先的 CDN 和安全服务闻名,其 Cloudflare Pages 服务也为开发者提供了一套与 Git 集成的...

如何平衡服务器的性能、网络质量与成本,是许多开发者和服务部署者面临的共同挑战。高配置的服务器往往价格不菲,而具备优质网络线路(如 CN2 GIA)的服务器,其高昂的成本更是让许多预算有限的项目望而却步。 本文将介绍一种高性价比的架构方案:利...

将小说或剧本转化为分镜脚本,是影视、动画和漫画创作中的关键一环。这个过程需要创作者深度解析文本,梳理情节、人物、场景和对话,再通过想象力构建出一系列连续的画面。传统的人工方式不仅耗时,而且工作量巨大。 随着人工智能技术的发展,一个问题自然而...

前言:构建经济高效的 AI 图像生成与编辑工作流 通义千问 Qwen-Image 作为一款开源的文生图模型,凭借其在复杂文本渲染,尤其是中文字符生成方面的卓越能力,获得了广泛关注。 与主流模型相比,它能在图像中精准地嵌入多行、多段的文字内容...

在构建基于大型语言模型(LLM)的知识库问答应用时,开发者普遍会采用检索增强生成(RAG)技术。然而,RAG 的实际效果常常受限于一个核心矛盾:如何平衡检索的精确性与上下文的完整性。如果文本切片(Chunk)过小,虽然能精准命中用户查询,但...

Anthropic 公司推出的 AI 编程助手 Claude Code 以其强大的代码生成和交互能力,在开发者社区中获得了广泛关注。然而,作为一个闭源产品,其内部工作机制对外界始终是一个“黑盒”,这不仅让开发者难以完全理解其决策逻辑,也限制...

AI 编程工具正从被动的代码“补全器”进化为主动的“开发伙伴”。它们能够理解复杂需求、规划任务并直接参与整个开发流程。本文将深度解析一款代表该趋势的命令行AI编程工具——我们称之为 Claude Code,并提供一份详尽的完整使用指南。 新...

无论是 Cursor、Claude Code,还是 Aider、RooCode 等工具,各类 AI 编程工具正带着其独特的指令配置方法(如 .cursor/rules/、GEMINI.md 等)进入市场。这种多样性反映了不同团队的创新思路,...

数据可视化通常需要繁琐的编程或复杂的图形界面操作,但现在有了新的选择。蚂蚁集团开源的数据可视化库 AntV 生态下的 @antv/mcp-server-chart 项目,让用户可以通过自然语言指令快速生成各种主流图表,极大地简化了从数据到图...

随着 Claude Code 这类代理式终端编程工具的兴起,一种全新的开发模式正在形成。这类工具允许开发者在终端环境中,通过人工智能代理执行从需求分析到代码实现、测试和修复的复杂任务。然而,其原生的交互体验和功能局限性也催生了一个蓬勃发展的...
Google 最新发布的 Gemini 2.5 Flash Image Preview 模型,因其强大的图像生成和编辑能力而备受关注,它还有一个有趣的昵称叫 “nano banana”。该模型不仅支持多图像融合和保持角色风格一致性,还能通过...
根据网络上的教程,可以通过修改 Cursor 编辑器的一项网络设置来解决。 具体步骤如下: 打开设置:启动 Cursor,点击左上角的齿轮图标进入 Settings。 找到网络选项:在左侧菜单中找到并点击 Network。 修改协议:将 H...
近期,AI 辅助编程工具 Cursor 公布了一份开发者偏爱的 AI 模型排行榜,数据显示 Claude 3.7 Sonnet 模型占据了榜首位置。 这份官方数据无疑反映了相当一部分开发者的选择。但这是否意味着开发者应该直接将 Claude...
背景:OpenRouter 及其支付选项 OpenRouter 提供了一个集成的平台,允许开发者和用户通过统一的 API 接口访问来自不同提供商的多种大型语言模型。对于希望利用这些高级 AI 功能的用户而言,向账户充值是使用付费模型的必要步...
OpenRouter 作为聚合了全球众多主流大语言模型 API 的平台,近期对其免费使用政策和速率限制进行了显著调整。该平台因其便捷性——提供单一 API Key 调用包括 DeepSeek 、 Qwen 、 GPT 、 Claude 、 ...
ChatGPT 不仅仅是一个简单的对话助手,它提供了更高级的功能来帮助用户系统性地处理重复性任务和项目。本文将介绍 ChatGPT 中的 Projects (项目) 和 GPTs (定制化 GPT) 两大核心功能,重点是如何利用它们来获得更...
cursor-shadow-patch 是一个开源工具,专门为 Cursor 编辑器 0.47.x 版本设计。它通过修改软件的机器码(machine ID),帮助用户解决因设备标识限制导致的账号登录或试用问题。项目由 zetaloop 在 ...
Dify 是一个 AI 应用的引擎和开发平台。 如果你需要开发一个企业级的 AI 应用,或者说智能体应用,一般有下面几种选择: • 手写全部代码,自行对接各类大模型厂商的 API 接口。 • 使用某些封装过一层的 SDK,比如 Vercel...
MGX 平台是由 厦门深度赋智科技有限公司 (DeepWisdom) 研发和推出的产品。 要理解 MGX,我们需要先了解其背后的公司 DeepWisdom。 深度赋智 (DeepWisdom) 是一家怎样的公司? DeepWi...
什么是 MCP 协议,它为何如此重要? 在人工智能 (AI) 领域,各种创新工具层出不穷,例如聊天机器人、集成开发环境 (IDE)、AI 智能助手和代码生成器等等。 这些工具的功能日益强大,开发者们希望它们能够与外部系统无缝协作,例如 Gm...
通用任务智能体,如 Manus,旨在模拟人类解决问题的能力,通过理解用户意图,拆解复杂任务并协同工作,最终达成目标。Manus 的核心在于其基于 Multi-Agent 的架构,允许多个智能 Agent 分工合作,共同完成用户提出的通用任务...
提问: 面对市场上众多的 AI 工具,Dify、FastGPT 和 RAGFlow 这三款工具都备受关注,它们各自有什么特点和优势?在实际应用中,我们应该如何根据自身需求进行选择呢? 解答: Dify、FastGPT 和 RAGFlow 都...
回顶部