
CosyVoice 是一个开源的多语言语音生成模型,专注于高质量的文本转语音(TTS)技术。它支持多种语言的语音合成,提供零样本语音生成、跨语言语音克隆和细粒度情感控制等功能。Cos– yVoice 2.0 相比上一版本,显著降低了30%到...

O MiniMax Audio é uma ferramenta de geração de fala de IA da MiniMax, com o recurso principal de converter rapidamente texto em fala natural altamente semelhante. Ela se baseia no modelo Speech-02, com uma similaridade de síntese de fala de até 99%, qualidade de som de nível de estúdio e suporte para mais de 30 idiomas e uma ampla variedade de...

MegaTTS3 是字节跳动与浙江大学合作开发的一款开源语音合成工具,专注于生成高质量的中英文语音。它的核心模型只有 0.45B 参数,轻量高效,支持中英文混合语音生成和语音克隆。项目托管在 GitHub 上,提供代码和预训练模型供免费下载...

Seed-VC 是一个开源项目,地址在 GitHub 上,由 Plachtaa 开发。它能用一段 1 到 30 秒的参考音频,快速实现语音或歌声转换,不需要额外训练。项目支持实时语音转换,延迟低至 400 毫秒左右,适合在线会议、游戏或直播...

O CSM Voice Cloning é um projeto de código aberto desenvolvido por Isaiah Bjork e hospedado no GitHub. Ele se baseia no modelo Sesame CSM-1B, que permite que os usuários clonem sua própria voz e gerem uma voz com suas próprias características pessoais simplesmente fornecendo uma amostra de áudio. Essa ferramenta é compatível com essa...

A PlayHT é uma plataforma on-line eficiente que se concentra na geração de discursos com IA, ajudando os usuários a converter rapidamente textos em discursos naturais e realistas. Ela oferece mais de 600 vozes de IA, suporta mais de 60 idiomas e diversos sotaques e é adequada para uma variedade de cenários, como produção de podcast, conteúdo educacional, marketing e promoção. Os usuários só precisam inserir o texto, escolher o estilo de voz apropriado,...

O Spark-TTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto desenvolvida pela equipe do SparkAudio, hospedada no GitHub, projetada para ajudar os usuários a converter texto em fala natural e suave com eficiência. Ela se baseia em tecnologia avançada de aprendizagem profunda e oferece suporte a vários idiomas e estilos de voz...

O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan), velocidade de fala ajustável e estilo rítmico (por exemplo, rap).

Zonos 是由 Zyphra 开发的一款开源语音合成与语音克隆工具。Zonos-v0.1 版本采用了先进的 Transformer 和混合模型,能够生成高质量的语音输出。该工具支持多种语言,包括英语、日语、中文、法语和德语,并提供细致的音...

O Weights é uma plataforma social de criatividade com IA que permite aos usuários criar capas de voz, conversão de texto em fala, imagens, músicas e vídeos com ações simples. A plataforma oferece uma grande variedade de ferramentas e modelos para ajudar os usuários a começar rapidamente e compartilhar seu trabalho com a comunidade.

O AnyVoice é uma plataforma de geração de fala com IA de última geração que oferece serviços de geração de fala e clonagem de voz ultrarrealistas. A plataforma permite que os usuários convertam texto em fala natural e escolham entre centenas de vozes predefinidas. Se não conseguir encontrar a voz certa, você pode clonar qualquer voz gratuitamente em apenas 3 segundos de gravação.

Llasa-3B是由香港科技大学音频实验室(HKUST Audio)开发的一个开源文本转语音(TTS)模型。该模型基于Llama 3.2B架构,经过细致调优,提供高质量的语音生成,不仅支持多种语言,还能实现情感表达和个性化语音克隆。Llas...

Fish Speech Derivative Project O Fish Agent é um sistema revolucionário de clonagem de fala de IA de ponta a ponta, desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, sua característica mais importante é que ele adota um design inovador de arquitetura sem tags semânticas, que não precisa depender de compiladores semânticos tradicionais, como o Whisper...

A ViiTor AI é uma poderosa plataforma de inteligência artificial focada em fornecer serviços de tradução de vídeo de alta qualidade, clonagem de voz, vídeos de avatar gerados por IA e síntese de fala. A plataforma é compatível com vários idiomas e foi projetada para ajudar os usuários a criar conteúdo multilíngue com facilidade. O recurso de tradução de vídeo do ViiTor AI gera legendas automaticamente e sintoniza de forma inteligente...

Voicemod是一款领先的实时变声器和声音特效软件,适用于Windows和macOS系统。无论你是在游戏中进行角色扮演、与朋友聊天,还是进行直播,Voicemod都能为你提供丰富的声音变化效果。通过AI技术,Voicemod能够实时改变你...

O MaskGCT (Masked Generative Codec Transformer) é um modelo de conversão de texto em fala (TTS) totalmente não-autoregressivo introduzido em conjunto pela Funky Maru Technology e pela Universidade Chinesa de Hong Kong. O modelo não requer informações explícitas de alinhamento de texto para fala e adota uma abordagem de geração em dois estágios, primeiramente por meio de...

O Funmaru Thousand Voices é uma plataforma de síntese de voz de IA multilíngue que oferece soluções de geração de voz realistas e naturais. Os usuários podem converter facilmente o conteúdo de texto em áudio de nível profissional e apoiar a criação de vozes de IA exclusivas (clones de voz) a partir de zero amostras para atender às necessidades personalizadas. A plataforma também oferece recursos de tradução de vídeo para ajudar os usuários a obter uma conversão rápida de conteúdo multilíngue. Recursos...

CosyVoice是一个多语言大规模语音生成模型,提供从推理、训练到部署的全栈能力。该项目由FunAudioLLM团队开发,旨在通过先进的自回归变换器和基于ODE的扩散模型,实现高质量的语音合成。CosyVoice不仅支持多语言语音生成,还...

海螺AI视频生成器是由MiniMax公司开发的一款先进的AI视频生成工具。用户只需提供简单的文本描述或上传图片,海螺AI即可快速生成高质量的视频内容。该工具广泛应用于创作者、市场营销人员和故事讲述者,帮助他们将创意转化为生动的视频。海螺AI...
voltar ao topo

