海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

マルチモーダルなリアルタイム・インタラクティブ製品

 ウェブサイトを投稿する

TEN: リアルタイムのマルチモーダル音声AIインテリジェンスを構築するオープンソースツール
TEN Frameworkは、開発者がリアルタイム、マルチモーダル、低遅延の音声AIインテリジェンスを構築することを支援することに焦点を当てたオープンソースソフトウェアプラットフォームです。C, C++, Go, Python, JavaScript, TypeScriptなど、複数のプログラミング言語をサポートしています。開発者はTEN Frameworkを使って、音声、視覚、テキストを素早く作成することができます。.
07-30 2.2 K0表彰される
wukong-robot：パーソナライズされた中国語の音声対話を実現するスマート・スピーカー・プロジェクト
wukong-robotはオープンソースの中国語音声対話ロボットおよびスマートスピーカープロジェクトで、開発者がパーソナライズされたスマートスピーカーを迅速に構築できるように設計されています。中国語の音声認識、音声合成、多ラウンド対話機能をサポートし、ChatGPT、Baidu、KDDIなどの技術と統合されています。プロジェクトの設計はモジュール式で、プラグインや機能を自由に拡張することができます。.
07-24 2.3 K0表彰される
BAGEL
BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ（合計14Bのパラメータ）を持ち、Mixture-of-Tra...
05-22 3.3 K0表彰される
RealtimeVoiceChat
RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル（LLM）から返答を生成し、テキストを音声出力に変換し、全てのプロセスはリアルタイムに近い。このプロジェクトは...
05-06 4.1 K0表彰される
Stepsailor：既存のSaaS製品にAIコマンドバーを統合
Stepsailor 是一个专为开发者打造的工具，核心是一个 AI 命令栏。开发者可以用它让自己的软件产品听懂用户的话，比如用户说“添加新任务”，软件就自动执行。它通过简单的 SDK 集成到 SaaS 产品中，不需要开发者懂 AI 技术。S...
04-10 2.2 K0表彰される
OpenAvatarChat：モジュール設計されたデジタル人間対話ツール
OpenAvatarChatはHumanAIGC-Engineeringチームによって開発され、GitHubでホストされているオープンソースプロジェクトです。モジュール式のデジタルヒューマン対話ツールで、ユーザーは1台のPCで全機能を実行することができます。このプロジェクトは、リアルタイムビデオ、音声認識、デジタルヒューマン技術を組み合わせて...
04-05 4.1 K0表彰される
VideoMind
VideoMindはオープンソースのマルチモーダルAIツールで、長尺動画の推論、Q&A、要約生成に特化している。香港理工大学のイェ・リューとシンガポール国立大学のショー・ラボのチームによって開発された。このツールは、タスクを計画、位置決め、検証、回答といったステップに分解することで、人間が動画を理解する方法を模倣している。.
04-02 3.4 K0表彰される
MoshiVis
MoshiVisはKyutai Labsによって開発され、GitHubでホストされているオープンソースプロジェクトです。MoshiVisはMoshi音声テキストモデル（7Bのパラメータ）をベースにしており、約2億600万個の新しい適応パラメータと、凍結されたPaliGemma2ビジュアルコーダー（4億個のパラメータ）により、...
03-28 3.2 K0表彰される
Qwen2.5-Omni
Qwen2.5-Omniは、Alibaba Cloud Qwenチームによって開発されたオープンソースのマルチモーダルAIモデルです。テキスト、画像、音声、動画など複数の入力を処理し、テキストや自然な音声による応答をリアルタイムで生成できる。このモデルは2025年3月26日にリリースされ、コードとモデルファイルはGitHu...
03-27 4.9 K0表彰される
xiaozhi-esp32-server: Xiaozhi AIチャットボットオープンソースバックエンドサービス
xiaozhi-esp32-serverは、Xiaozhi AIチャットボット（xiaozhi-esp32）のバックエンドサービスを提供するツールです。Pythonで書かれており、WebSocketプロトコルに基づいている。このプロジェクトは...
03-18 9.6 K0表彰される
Baichuan-Audio
Baichuan-Audioは、Baichuan Intelligence（baichuan-inc）によって開発されたオープンソースプロジェクトで、GitHubでホストされており、エンドツーエンドの音声対話技術に焦点を当てている。このプロジェクトは、音声入力を個別の音声トークンに変換し、大規模なモデルを通して対応するテキストを生成できる完全な音声処理フレームワークを提供します。.
02-28 2.9 K0表彰される
PowerAgents：時限Webタスク実行のためのAIインテリジェント・ボディ・プラットフォーム
PowerAgentsは、ウェブ自動化タスクに特化したAIインテリジェンス・プラットフォームであり、ユーザーは、データをクリック、入力、抽出することができるAIインテリジェンスを作成し、配備することができる。このプラットフォームは、時間単位、日単位、週単位で自動的に実行されるタスクの設定をサポートし、ユーザーはインテリジェンスの作業をリアルタイムで見ることができる。自律的な構築機能を提供するだけでなく、ソーシャル...
02-28 2.4 K0表彰される
Step-Audio
Step-Audioはオープンソースのインテリジェント音声インタラクションフレームワークで、プロダクション環境において、すぐに使える音声理解と音声生成機能を提供するように設計されています。このフレームワークは、多言語ダイアログ（例：中国語、英語、日本語）、感情音声（例：嬉しい、悲しい）、地域方言（例：広東語、四川語）、調整可能なスピーチレート、リズムスタイル（例：ラップ）をサポートしています。.
02-19 3.1 K0表彰される
Gemini Cursor：見て、聞いて、話すことができるGemini上に構築されたAIデスクトップスマートアシスタント
Gemini Cursorは、GoogleのGemini 2.0 Flash（実験的）モデルをベースにしたデスクトップインテリジェントアシスタントである。マルチモーダルAPIを介して視覚、聴覚、音声によるインタラクションを可能にし、リアルタイムで低遅延なユーザー体験を提供する。このプロジェクトは、@13point5によって作成された。
02-12 2.9 K0表彰される
DeepSeek-VL2
DeepSeek-VL2は、高度なMoE（Mixture-of-Experts）視覚言語モデルのシリーズで、前身であるDeepSeek-VLの性能を大幅に向上させています。このモデルは、視覚的な質問と回答、光学式文字認識、文書/表/図の理解、視覚的なローカリゼーションなどのタスクに優れています。
02-12 3.5 K0表彰される
AI Web Operator: ブラウザ自動化、OpenAI Operatorのオープンソース実装
AI Web Operatorは、複数のAI技術とSDKを統合することで、ブラウザでのユーザー体験を簡素化するために設計されたオープンソースのAIブラウザオペレーターツールです。BrowserbaseとVercel AI SDK上に構築されたこのツールは、様々な大規模言語モデル（LLM）をサポートしています...
01-31 3.0 K0表彰される
SpeechGPT 2.0-プレビュー：リアルタイム対話のためのエンドツーエンドの擬人化音声対話マクロモデル
SpeechGPT 2.0-previewは、OpenMOSSによって導入された最初の擬人化リアルタイム対話システムで、数百万時間に及ぶ音声データに基づいて学習されています。SpeechGPT 2.0-previ...
01-30 2.8 K0表彰される
OpenAI Realtime Agents
OpenAI Realtime Agentsは、OpenAIのリアルタイムAPIを使用して、マルチインテリジェントボディスピーチアプリケーションを構築する方法を示すことを目的としたオープンソースプロジェクトです。OpenAI Swarmから借用した）ハイレベルなインテリジェントボディモデルを提供することで、開発者は複雑なマルチインテリジェントボディスピーチシステムを短時間で構築することができます。このプロジェクトは ...
01-19 3.5 K0表彰される
保釈
Bailingは、音声を通じてユーザーと自然な対話を行うように設計されたオープンソースの音声対話アシスタントです。このプロジェクトでは、音声認識（ASR）、音声活動検出（VAD）、大規模言語モデル（LLM）、音声合成（TTS）技術を組み合わせて、GPT-4oのような音声対話ロボットを実装している。BaiLingのエンド・ツー・エンドの待ち時間は...
01-19 3.4 K0表彰される