リアルタイムボイスチャット
RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)から返答を生成し、テキストを音声出力に変換する。
トランスクリプト
TranskriptorはAIを活用したテープ起こしツールで、音声や動画を素早くテキストに変換します。最大99%の精度で100以上の言語に対応しており、会議やインタビュー、授業ノートなど、さまざまなシーンに適しています。ファイルをアップロードしたり、直接録音したり、Zoom、Go...などへのリンク経由で書き起こしたりできます。
Conch Speech (MiniMax Audio): 自然な音声を生成するAIツール
MiniMax Audioは、MiniMax社のAI音声生成ツールで、テキストを類似性の高い自然な音声に素早く変換することを主な特徴としています。Speech-02モデルをベースにしており、最大99%の音声合成類似度、スタジオ級の音質、30以上の言語と幅広い口語をサポートしています。
ツインマインド
TwinMindはThirdEar AI, Inc.が開発した「あなたのためにすべてを記憶する」スマートツールです。会話や会議、講義をリアルタイムで録音・テキスト化し、100以上の言語に対応。ユーザーは自分でメモを取る必要はなく、TwinMindが...
OpenAIリアルタイムエージェント
OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます。このプロジェクトは ...
保釈
バイリン(Bailing)は、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントである。このプロジェクトでは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデル(LLM)、音声合成(TTS)の技術を組み合わせて、GPT-4oに似た音声対話ロボットを実装しています。
「常時稼働のDeepseek AIアシスタント:Deepseek-V3に基づくインテリジェントな音声対話システムの構築
Always-On AI Assistantは、Deepseek-V3、RealtimeSTT、Typerなどの先進技術を統合し、強力で永続的なオンラインAIアシスタントシステムを構築する革新的なAIアシスタントプロジェクトです。このプロジェクトは、特にエンジニアリング開発シナリオに最適化されており、完全な...
シャオジーAIチャットボット
Xiaozhi AI Chatbotは、ESP32開発ボードをベースにしたオープンソースプロジェクトで、ユーザーが独自のAIチャットコンパニオンを構築できるように設計されています。このプロジェクトはShrimpによって開発され、より多くの人々がAIハードウェア開発を始め、大きな言語モデルを実際のハードウェア・デバイスに適用する方法を理解するための教育目的で主に使用されています。プロジェクト ...
フィッシュエージェント
フィッシュ・スピーチ派生プロジェクト フィッシュ・エージェントは、V0.1 3Bモデル・アーキテクチャに基づいて開発された、革命的なエンド・ツー・エンドのAI音声クローニング・システムです。完全なエンドツーエンドの音声クローニング処理システムとして、その最大の特徴は、革新的なセマンティックタグレスアーキテクチャ設計を採用していることです。
ボイスプロ
Voice-Proは、Gradio WebUIをベースとした多機能ツールで、音声合成、テキスト読み上げ、リアルタイム翻訳、YouTubeビデオダウンロード、人声分離をサポートします。Whisper、Faster-Whisper、Whisper-Timestampを統合しています。
いちご(llama3-s)
Ichigoはオープンソースのリアルタイム音声AIプロジェクトで、テキストベースの言語モデルをネイティブの「聞き取り」機能で拡張することを目的としている。このプロジェクトは、MetaのChameleon論文にインスパイアされた初期のフュージョン技術を使用している。Ichigoの目標は、オープンソースデータ、オープンソース重み付けネイティブデバイススピーチ...
AIヒア
MacBookを使っているなら、AI Hearを試してみよう。音声を録音し、リアルタイムで現地の音声をテキストに変換し、翻訳して最終的に字幕を書き出すことができる。国をまたいだ会議や英語のオーディオブックのリスニングをサポートするのに使えます。 AI Hearは、ワンクリックで多言語のリアルタイム翻訳と文字起こしができる、現地で動作するソフトウェアです。
福丸千音
Funmaru Thousand Voicesは、リアルで自然な音声生成ソリューションを提供する多言語AI音声合成プラットフォームです。ユーザーは、テキストコンテンツを簡単にプロ級の音声に変換することができ、個人のニーズに合わせてゼロサンプルから専用のAIボイス(ボイスクローン)の作成をサポートします。また、このプラットフォームは動画翻訳機能も提供し、ユーザーの音声合成を支援します。
Hume AI: 感情認識でAIを強化する|音と表情から感情を認識する|感情のある音声を生成する
ヒュームAIは感情知能に特化したAI企業で、人間の感情を理解し、それに反応するマルチモーダルAI技術を開発している。同社の主力製品であるEmpathic Voice Interface(EVI)は、音声、表情、言語など様々な形でユーザーの感情を認識し、反応することができる。
Tongyi Listening and Understanding: Ali Tongyi 音声・動画コンテンツ書き起こしAIアシスタント
Tongyi Listening and Understandingは、AliCloudの強力なAIモデルによって、音声や動画コンテンツをリアルタイムでテキスト化し、翻訳や要約、位置情報などの機能を提供する。AliCloudの強力なAIモデルに依存し、音声や動画コンテンツをリアルタイムでテキストに書き起こし、翻訳、要約、位置決めなどの機能を提供する。Tongyi Listening Wooは複数の言語とシナリオをサポートし、ユーザ...
テンセント・スマートフィルム(QQインスタントメッセージプラットフォームの開発者)
Tencent Smart Shadowは、テンセントが開始したオンラインインテリジェント動画作成プラットフォームで、クラウドサービスが提供する強力なAIツールにより、テキストダビング、デジタル人力放送、自動字幕認識などの機能をサポートし、素材検索、動画編集、レンダリング書き出し、公開を統合し、ユーザーに便利な動画編集と...