
TEN Frameworkは、開発者がリアルタイム、マルチモーダル、低遅延の音声AIインテリジェンスを構築することを支援することに焦点を当てたオープンソースソフトウェアプラットフォームです。C, C++, Go, Python, JavaScript, TypeScriptなど、複数のプログラミング言語をサポートしています。開発者はTEN Frameworkを使って、音声、視覚、テキストを素早く作成することができます。.

wukong-robotはオープンソースの中国語音声対話ロボットおよびスマートスピーカープロジェクトで、開発者がパーソナライズされたスマートスピーカーを迅速に構築できるように設計されています。中国語の音声認識、音声合成、多ラウンド対話機能をサポートし、ChatGPT、Baidu、KDDIなどの技術と統合されています。プロジェクトの設計はモジュール式で、プラグインや機能を自由に拡張することができます。.

BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ(合計14Bのパラメータ)を持ち、Mixture-of-Tra...

RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)から返答を生成し、テキストを音声出力に変換し、全てのプロセスはリアルタイムに近い。このプロジェクトは...

Stepsailor 是一个专为开发者打造的工具,核心是一个 AI 命令栏。开发者可以用它让自己的软件产品听懂用户的话,比如用户说“添加新任务”,软件就自动执行。它通过简单的 SDK 集成到 SaaS 产品中,不需要开发者懂 AI 技术。S...

OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタルヒューマン対話ツールで、ユーザーは1台のPCで全機能を実行することができます。このプロジェクトは、リアルタイムビデオ、音声認識、デジタルヒューマン技術を組み合わせて...

VideoMindはオープンソースのマルチモーダルAIツールで、長尺動画の推論、Q&A、要約生成に特化している。香港理工大学のイェ・リューとシンガポール国立大学のショー・ラボのチームによって開発された。このツールは、タスクを計画、位置決め、検証、回答といったステップに分解することで、人間が動画を理解する方法を模倣している。.

MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル(7Bのパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー(4億個のパラメータ)により、...

Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、テキストや自然な音声による応答をリアルタイムで生成できる。このモデルは2025年3月26日にリリースされ、コードとモデルファイルはGitHu...

xiaozhi-esp32-serverは、Xiaozhi AIチャットボット(xiaozhi-esp32)のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルに基づいている。このプロジェクトは...

Baichuan-Audioは、Baichuan Intelligence(baichuan-inc)によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てている。このプロジェクトは、音声入力を個別の音声トークンに変換し、大規模なモデルを通して対応するテキストを生成できる完全な音声処理フレームワークを提供します。.

PowerAgentsは、ウェブ自動化タスクに特化したAIインテリジェンス・プラットフォームであり、ユーザーは、データをクリック、入力、抽出することができるAIインテリジェンスを作成し、配備することができる。このプラットフォームは、時間単位、日単位、週単位で自動的に実行されるタスクの設定をサポートし、ユーザーはインテリジェンスの作業をリアルタイムで見ることができる。自律的な構築機能を提供するだけでなく、ソーシャル...

Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ(例:中国語、英語、日本語)、感情音声(例:嬉しい、悲しい)、地域方言(例:広東語、四川語)、調整可能なスピーチレート、リズムスタイル(例:ラップ)をサポートしています。.

Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースにしたデスクトップインテリジェントアシスタントである。マルチモーダルAPIを介して視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延なユーザー体験を提供する。このプロジェクトは、@13point5によって作成された。

DeepSeek-VL2は、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズで、前身であるDeepSeek-VLの性能を大幅に向上させています。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。

AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザオペレーターツールです。BrowserbaseとVercel AI SDK上に構築されたこのツールは、様々な大規模言語モデル(LLM)をサポートしています...

SpeechGPT 2.0-previewは、OpenMOSSによって導入された最初の擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。SpeechGPT 2.0-previ...

OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます。このプロジェクトは ...

Bailingは、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトでは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデル(LLM)、音声合成(TTS)技術を組み合わせて、GPT-4oのような音声対話ロボットを実装している。BaiLingのエンド・ツー・エンドの待ち時間は...
トップに戻る

