TEN: リアルタイムのマルチモーダル音声AIインテリジェンスを構築するオープンソースツール

2025-07-30

AIツールライブラリ/AIオーディオ/インテリジェント・ボディ・アプリケーション/音声対話

2.3 K 12

https://github.com/TEN-framework/ten-framework

のコピーを取る。

TEN Frameworkは、開発者がリアルタイム、マルチモーダル、低遅延の音声AIインテリジェンスを構築することを支援することに重点を置いたオープンソースソフトウェアプラットフォームです。C、C++、Go、Python、JavaScript、TypeScriptなど複数のプログラミング言語をサポートしており、開発者は音声、視覚、テキスト対話機能を備えたインテリジェンスを迅速に作成できる。このフレームワークは、DifyやCozeなどの外部プラットフォームとシームレスに統合するモジュール式の拡張システムを提供している。また、クラウドやエッジデバイスへのデプロイもサポートしており、幅広いアプリケーションシナリオに適している。TENフレームワークは、オープンソースのコラボレーションを奨励するApache 2.0ライセンスの下でリリースされており、開発者はコード貢献、ドキュメントの改善、機能開発に自由に参加できる。公式ドキュメントとブログは、初心者からプロの開発者まで、詳細なガイダンスを提供しています。

機能一覧

リアルタイムの音声対話をサポート：全二重対話を実現し、リアルタイムの音声認識とテキスト読み上げをサポート。
マルチモーダルサポート：音声、視覚、テキスト処理を組み合わせて、統合AIインテリジェンスを構築する。
モジュール式拡張システム: 天気クエリやウェブ検索などの外部ツールを簡単に統合するための再利用可能な拡張機能を提供します。
クロスプラットフォーム動作：Windows、Mac、Linux、モバイルデバイスをサポートし、ESP32などのエッジデバイスと互換性があります。
ワークフロー構築ツール：TMAN Designerを通じてローコード/ノーコード・インターフェースを提供することで、スマートボディの開発を簡素化します。
主流のビッグモデルを統合：Llama 4、Google Gemini、DeepSeek R1などをサポートし、リアルタイムのインタラクション機能を提供。
リアルタイム画像生成：StoryTeller拡張機能により、ストーリーに関連した画像を生成し、インタラクティブな体験を向上させることができます。
オープンソースコラボレーションサポート: GitHubのIssuesとProjectsを提供し、開発者がコードをコントリビュートしたり、Issuesに対するフィードバックを行うことができます。

ヘルプの使用

設置プロセス

TENフレームワークのインストール手順は、ターゲットプラットフォームや開発要件によって異なります。公式文書に基づく以下の一般的なインストール手順は、ほとんどのユーザーに適しています：

環境準備
- 必要な開発ツールがシステムにインストールされていることを確認してください。例えば、C/C++の開発にはコンパイラ（GCCなど）のインストールが必要ですし、Pythonの開発にはPython 3.8+の環境が必要です。
- Git をインストールして、TEN Framework のコード・リポジトリをクローンします。以下のコマンドを実行して、リポジトリをクローンする：
```
git clone https://github.com/TEN-framework/ten-framework.git
```
- プロジェクト・カタログにアクセスする：
```
cd ten-framework
```
依存関係のインストール
- TENフレームワークは多くのサードパーティ製ライブラリに依存しており、それらは各パッケージのLICENSEファイルをインストールします。以下のコマンドを実行して、基本的な依存関係をインストールする：
```
pip install -r requirements.txt
```
- C/C++コンポーネントの場合、TENフレームワークはGoogle GNに基づくビルドシステムを使用します。以下の手順に従って、GNツールをインストールする必要がある。ten_gnのサブモジュールである。README.md：
```
git submodule update --init --recursive
cd core/ten_gn
./configure
```
外部サービスの設定
- TENフレームワークは、Deepgram（音声認識）、Elevenlabs（音声合成）、OpenAI（ビッグモデル）などの外部APIとの統合をサポートしている。ユーザーはこれらのサービスに登録し、APIキーを取得する必要がある。
- プロジェクトのルート・ディレクトリにコンフィギュレーション・ファイルを作成する（例えばconfig.json)、APIキーを入力する：
```
{
"agora_app_id": "<your_agora_app_id>",
"openai_api_key": "<your_openai_api_key>",
"deepgram_api_key": "<your_deepgram_api_key>",
"elevenlabs_api_key": "<your_elevenlabs_api_key>"
}
```
- これらのキーは、各プラットフォームの無料トライアルで入手できます。
プレイグラウンドの運営
- TENは、フレームワークの機能を素早く体験するためのPlaygroundのサンプルを提供します。以下のコマンドを実行して起動してください：
```
python playground.py
```
- プレイグラウンドはTENエージェントとのインタラクションをサポートし、リアルタイムの音声対話と画像生成機能をデモンストレーションします。

機能操作の流れ

リアルタイム音声対話

TENフレームワークは、TENエージェントを通じてリアルタイムの音声対話を可能にします。ユーザは以下の手順で体験できる：

TENエージェントを起動したら、言語モデルとしてDeepSeek R1またはGoogle Geminiを選択します。
マイクを使って音声を入力すると、システムはリアルタイムで音声をテキストに変換し、大規模なモデルを使って応答を生成する。
解答はイレブンラボの音声合成機能により音声として出力される。
アクション例: 「森での冒険の話をしてください」と言うと、TENエージェントはStoryTellerエクステンションを使ってストーリーと関連する画像を生成します。

ワークフロー構築（TMAN Designer）

TMAN Designerは、AIインテリジェンスを素早く構築するためのローコードツールです：

TMAN Designerウェブインタフェースへのアクセス（ローカルで実行するか、正式に利用可能なオンラインバージョンにアクセスします）。
音声インタラクションのフローを作成するには、インターフェイス内のモジュールをドラッグ＆ドロップします。例えば、"Speech Input "モジュールを追加して "OpenAI Processing "モジュールに接続し、"Speech Output "モジュールに接続します。
ワークフローを保存した後、"Run "ボタンをクリックしてスマートボディの相互作用をテストする。
TMAN Designerは、ダーク/ライトテーマの切り替え、組み込みエディタ、および簡単なデバッグのためのログビューアをサポートしています。

拡張統合

TENフレームワークのモジュール設計により、開発者はカスタム拡張機能を追加することができる。例えば、天気予報ルックアップ機能の統合などである：

Weather Checkエクステンションをダウンロードし、TENフレームワークのextensionsカタログ
ワークフローにWeather Checkモジュールを追加し、APIキー（例：OpenWeatherMap）を設定します。
テスト手順：「今日の北京の天気はどうですか」と入力すると、システムがリアルタイムの天気情報を返す。

ハードウェアサポート（ESP32）

TENエージェントはESP32-S3 Korvo V3開発ボードでサポートされています：

クローンTEN-Agent/esp32-client分岐する。
ファームウェアのコンパイルとフラッシュにはESP-IDFツールチェーンを使用します。esp32-client/README.md。
Wi-FiとAPIキーの設定が完了すると、ESP32デバイスはリアルタイムの音声対話をサポートするTENエージェントを実行する準備が整う。

ほら

一部の機能はクラウドAPIに依存しているため、安定したインターネット接続を確保してください。
を実行して、GitHub のアップデートを定期的にチェックしましょう。git pull最新バージョンを入手する
問題が発生した場合は、GitHub Issuesでフィードバックを送信するか、TENコミュニティ（TENポータルのリンク）のDiscordディスカッションに参加してください。

アプリケーションシナリオ

教材
TENエージェントは、インタラクティブな学習アシスタントを作成するために使用することができます。生徒が音声で質問すると、知能体がリアルタイムで回答し、関連する画像を生成する。例えば、生徒が「火山とは何ですか」と質問すると、TENエージェントは火山形成の原理を説明し、噴火している火山の画像を生成して学習への関心を高めます。
インテリジェント・カスタマー・サービス・システム
企業はTENフレームワークを使用して、多言語での対話をサポートするリアルタイムの音声カスタマーサービスを構築することができます。カスタマーサービス・インテリジェンスは、注文照会や技術サポートなどの一般的な質問に対応し、ウェブ検索拡張機能で最新情報を見つけることができます。
IoTデバイス制御
スマートホームのシナリオでは、TENエージェントはESP32デバイス上で動作し、ユーザーは音声で家電製品を制御することができる。例えば、「リビングの電気をつけて」と言うと、スマートボディがコマンドを解析し、制御信号を送信する。
童話の世代
親はStoryTeller拡張機能を使用することで、TEN Agentが子供のためにパーソナライズされたストーリーを生成し、没入感を高めるためにリアルタイムでイラストを生成することができます。

QA

TENフレームワークは無料ですか？
TENフレームワークは完全にオープンソースであり、Apache 2.0ライセンスの下でリリースされている。ユーザーは無料でダウンロードして使用することができるが、一部の機能にはサードパーティのAPIキーが必要で、コストがかかる場合がある。
TENフレームワークを使うのにプログラミングの経験は必要ですか？
TMAN Designerは、プログラミング経験のないユーザーにローコード・インターフェースを提供します。開発者はコードのカスタマイズ機能により、複数のプログラミング言語をサポートできます。
TENエージェントの対応機種は？
現在、Llama 4、Google Gemini、DeepSeek R1、OpenAIのモデルがサポートされており、将来的にはさらに多くのモデルがサポートされる予定です。
TENエージェントをエッジデバイスに導入するには？
ESP32などのデバイスでTENエージェントを実行するには、ESP-IDFツールチェーンをインストールし、ファームウェアを設定する必要があります。詳細についてはTEN-Agent/esp32-clientドキュメンテーション

AIオープンソースプロジェクトマルチモーダルなリアルタイム・インタラクティブ製品

AI生産性ツール » TEN: リアルタイムのマルチモーダル音声AIインテリジェンスを構築するオープンソースツール掲載日は2025-07-30です。URLが古い、アクセスできない場合はご連絡ください。

0ブックマークに登録

0表彰される

TEN: リアルタイムのマルチモーダル音声AIインテリジェンスを構築するオープンソースツール

機能一覧

ヘルプの使用

設置プロセス

機能操作の流れ

リアルタイム音声対話

ワークフロー構築（TMAN Designer）

拡張統合

ハードウェアサポート（ESP32）

ほら

アプリケーションシナリオ

QA

おすすめ

AIツールが見つからない？こちらをお試しください！

選考→執筆→出版、完全自動化！

人気のAIツール

新着情報

最新のAIツール

TEN: リアルタイムのマルチモーダル音声AIインテリジェンスを構築するオープンソースツール

機能一覧

ヘルプの使用

設置プロセス

機能 操作の流れ

リアルタイム音声対話

ワークフロー構築（TMAN Designer）

拡張統合

ハードウェアサポート（ESP32）

ほら

アプリケーションシナリオ

QA

おすすめ

AIツールが見つからない？こちらをお試しください！

選考→執筆→出版、完全自動化！

人気のAIツール

新着情報

最新のAIツール

クイック照会ステーションAIツール

機能操作の流れ