
TEN Frameworkは、開発者がリアルタイム、マルチモーダル、低遅延の音声AIインテリジェンスを構築することを支援することに焦点を当てたオープンソースソフトウェアプラットフォームです。C, C++, Go, Python, JavaScript, TypeScriptなど、複数のプログラミング言語をサポートしています。開発者はTEN Frameworkを使って、音声、視覚、テキストを素早く作成することができます。.

wukong-robotはオープンソースの中国語音声対話ロボットおよびスマートスピーカープロジェクトで、開発者がパーソナライズされたスマートスピーカーを迅速に構築できるように設計されています。中国語の音声認識、音声合成、多ラウンド対話機能をサポートし、ChatGPT、Baidu、KDDIなどの技術と統合されています。プロジェクトの設計はモジュール式で、プラグインや機能を自由に拡張することができます。.

BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ(合計14Bのパラメータ)を持ち、Mixture-of-Tra...

RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)から返答を生成し、テキストを音声出力に変換し、全てのプロセスはリアルタイムに近い。このプロジェクトは...

Stepsailor 是一个专为开发者打造的工具,核心是一个 AI 命令栏。开发者可以用它让自己的软件产品听懂用户的话,比如用户说“添加新任务”,软件就自动执行。它通过简单的 SDK 集成到 SaaS 产品中,不需要开发者懂 AI 技术。S...

OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタルヒューマン対話ツールで、ユーザーは1台のPCで全機能を実行することができます。このプロジェクトは、リアルタイムビデオ、音声認識、デジタルヒューマン技術を組み合わせて...

VideoMindはオープンソースのマルチモーダルAIツールで、長尺動画の推論、Q&A、要約生成に特化している。香港理工大学のイェ・リューとシンガポール国立大学のショー・ラボのチームによって開発された。このツールは、タスクを計画、位置決め、検証、回答といったステップに分解することで、人間が動画を理解する方法を模倣している。.

MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル(7Bのパラメータ)をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー(4億個のパラメータ)により、...

Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、テキストや自然な音声による応答をリアルタイムで生成できる。このモデルは2025年3月26日にリリースされ、コードとモデルファイルはGitHu...

xiaozhi-esp32-serverは、Xiaozhi AIチャットボット(xiaozhi-esp32)のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルに基づいている。このプロジェクトは...

Baichuan-Audio 是由百川智能(baichuan-inc)开发的一个开源项目,托管于 GitHub 上,专注于端到端的语音交互技术。该项目提供了一个完整的音频处理框架,能够将语音输入转化为离散音频标记,再通过大模型生成对应的文本...

PowerAgents 是一个专注于网页自动化任务的AI智能体平台,用户可以通过它创建并部署能够点击、输入和提取数据的AI智能体。该平台支持将任务设置为按小时、天或周自动运行,用户还能实时观看智能体工作过程。它不仅提供自主构建功能,还拥有社...

Step-Audio 是一个开源的智能语音交互框架,旨在提供生产环境开箱即用的语音理解和生成能力。该框架支持多语言对话(如中文、英文、日语)、情感语音(如快乐、悲伤)、区域方言(如粤语、四川话)、可调节的语速和韵律风格(如说唱)。Step-...

Gemini Cursorは、GoogleのGemini 2.0 Flash(実験的)モデルをベースにしたデスクトップインテリジェントアシスタントである。マルチモーダルAPIを介して視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延なユーザー体験を提供する。このプロジェクトは、@13point5によって作成された。

DeepSeek-VL2は、高度なMoE(Mixture-of-Experts)視覚言語モデルのシリーズで、前身であるDeepSeek-VLの性能を大幅に向上させています。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。

AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザオペレーターツールです。BrowserbaseとVercel AI SDK上に構築されたこのツールは、様々な大規模言語モデル(LLM)をサポートしています...

SpeechGPT 2.0-previewは、OpenMOSSによって導入された最初の擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。SpeechGPT 2.0-previ...

OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した)ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます。このプロジェクトは ...

Bailingは、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトでは、音声認識(ASR)、音声活動検出(VAD)、大規模言語モデル(LLM)、音声合成(TTS)技術を組み合わせて、GPT-4oのような音声対話ロボットを実装している。BaiLingのエンド・ツー・エンドの待ち時間は...
トップに戻る

