BreezeAppは、MediaTek ResearchがAndroidおよびiOSプラットフォーム向けに開発した携帯電話向けAIアプリである。このアプリの主な機能は、ユーザーが携帯電話で大規模言語モデル(LLM)を実行し、インターネット接続を必要とせずに幅広いAI機能を使用できるようにすることです。BreezeAppは、音声合成、テキスト読み上げ、テキストチャットボット、画像Q&Aをサポートし、デフォルトではMediaTek Innovation BaseのBreeze 2シリーズが使用されるが、ユーザーはLlama 3.2などの他のモデルに切り替えることもできる。その目標は、一般ユーザーがAIモデルを自由に選択できるようにし、開発者がモバイルAIアプリケーションを簡単に作成できるようにすることである。
機能一覧
- オフラインAI処理インターネットに接続する必要がなく、すべてのAI機能は携帯電話上でローカルに実行され、ユーザーのプライバシーを保護します。
- 音声テキストユーザーの音声をリアルタイムでテキストに変換し、複数の言語シナリオをサポートします。
- 音声合成カスタマイズされたスピーチスタイルをサポートし、テキストを自然なスピーチに変換します。
- テキストチャットボットQ&Aや要約などのタスクを処理できる大規模な言語モデルに基づいたインテリジェントな対話機能を提供します。
- イメージQ&Aユーザーが画像をアップロードすると、アプリが画像に関連する質問に答える。
- モデル切り替えBreeze 2やLlama 3.2など、異なる大規模言語モデル間の切り替えをサポート。
- モデルダウンロード初回起動時に必要なAIモデルのダウンロードを自動的に促し、設定プロセスを簡素化します。
ヘルプの使用
設置プロセス
BreezeAppはApp StoreまたはGoogle Play Storeからダウンロードでき、インストール手順はシンプルで簡単です。以下はその詳細な手順です:
- ダウンロードアプリ::
- お使いの携帯電話でApp Store(iOS)またはGoogle Play Store(Android)を開きます。
- BreezeApp」を検索して、MediaTek Researchが公開したアプリを見つけます。
- インストール」をクリックし、ダウンロードが完了するまでお待ちください。アプリケーションのサイズはデバイスとモデルによって異なり、約500MB~2GBのストレージ容量が必要です。
- 初回発売とモデルダウンロード::
- BreezeAppを開くと、最初の起動時にデフォルトのBreeze 2シリーズモデルをダウンロードするよう促されます。
- デバイスに十分なストレージ容量と安定したネットワークがあることを確認してください(インターネット接続は最初のダウンロードにのみ必要です)。
- ダウンロードが完了すると、手動で設定しなくてもアプリが自動的にモデルを設定する。
- スイッチングモデル(オプション)::
- 他のモデル(例:Llama 3.2)を使用したい場合は、アプリケーション設定に進んでください。
- モデル管理 "を選択し、プロンプトに従って目的のモデルをダウンロードし、切り替える。
- 切り替え方法の詳細については、公式GitHubリポジトリを参照のこと。
<README.md>
詳細なインストール手順が記載されています。
機能 操作の流れ
1.音声からテキストへ
- 手続き::
- BreezeAppを開き、"Speech to Text "モジュールに入ります。
- マイクのアイコンをクリックして録音を開始し、録音中はできるだけ静かな環境を保つようにしてください。
- 録音が完了すると、アプリは自動的に音声をテキストに変換し、画面に表示する。
- テキストの編集や他のアプリケーション(ノートやメールなど)へのエクスポートをサポート。
- ほら::
- 多言語環境のために、台湾語(北京語)、中国語(北京語)、中国語/英語混合のシナリオをサポート。
- オフラインモードでは、音声認識の速度と精度はデバイスの性能に依存します。
2.音声合成
- 手続き::
- Text-to-Speech "モジュールに入り、変換したいテキストを入力またはペーストする。
- ボイススタイル(男性、女性など)を選択するか、カスタマイズしたボイスサンプルをアップロードしてください。
- 生成」ボタンをクリックすると、アプリがテキストを音声に変換して再生します。
- オーディオファイルを保存したり、他のアプリと共有することができます。
- 高度な機能::
- ポッドキャストやオーディオブックの制作に適した、音声のスピードとピッチの調整をサポート。
- 協議
<BreezyVoice>
出力を最適化するために、ボイスサンプルをリポジトリに設定する手順を説明します。
3.テキストチャットボット
- 手続き::
- チャットモジュールを開き、質問やダイアログを入力します。
- このアプリケーションは、ローカルの大きな言語モデルに基づいて回答を生成し、複数回の対話をサポートする。
- クイズ、テキストの要約、クリエイティブなコンテンツの生成に使用できます。
- 性格描写::
- 繁体字中国語をサポートし、台湾と香港のユーザーに適しています。
- 文書の要約や多ラウンド推論などの複雑なタスクを処理できる。
4.イメージクイズ
- 手続き::
- 画像クイズ "モジュールに移動し、"画像をアップロード "ボタンをクリックします。
- アルバムから写真を選択するか、直接撮影します。
- 画像に関連する質問を入力すると、アプリが画像を分析して答えを生成する。
- アプリケーションシナリオ::
- 物を認識したり、情景を描写したり、写真の細部に関する質問に答えたりするのに最適。
- 例えば、旅行の写真をアップロードして、「写真に写っている建物は何ですか?.
5.モデルの切り替えと管理
- 手続き::
- 設定 > モデル管理.
- インストールされているモデルのリストを表示し、"Add Model "をクリックして対応モデルを追加ダウンロードします。
- モデルを切り替えた後、アプリは自動的に再起動し、新しいモデルを読み込みます。
- ほら::
- モデルによって必要な機器の性能が異なるため、機器の互換性に関する注意事項を確認することをお勧めします。
- 公式GitHubでは、Llama 3.2などのモデルのインストールガイドを以下のサイトで提供しています。
<BreezeApp/docs/installation.md>
.
ほら
- 機材要件スムーズな動作のため、4GB以上のRAMを搭載したデバイスを推奨します。
- プライバシーデフォルトではすべての機能がオフラインで実行され、データはクラウドにアップロードされません。
- 地域支援ご質問は、GitHubの以下のページをご覧ください。
<Discussions>
開発者や他のユーザーとコミュニケーションするためのフォーラム。
アプリケーションシナリオ
- プライバシーに配慮したシナリオ
個人的なメモや音声録音など、機密情報を扱う必要がある場合、BreezeAppのオフライン機能により、データの漏洩を防ぐことができるため、弁護士、ジャーナリスト、医師などの職業に適しています。 - ネットワーク環境なし
飛行機内や遠隔地、ネットワークが不安定な場所では、ユーザーは音声テキスト変換機能やチャット機能を使って、会議の録音や下書きテキストの作成などの作業を行うことができる。 - 教育と学習
学生は画像クイズ機能を使って教科書のイラストや実験室の画像を分析し、解説に素早くアクセスできる。チャットボットはクイズの復習やノートの要約に使える。 - 開発者テスト
開発者はBreezeAppを使ってローカルAIモデルをテストし、携帯電話向けAIアプリケーションの開発の可能性を探り、公式ドキュメントを参照してすぐに始めることができます。
品質保証
- BreezeAppはインターネット接続が必要ですか?
初回ダウンロード時にはインターネット接続が必要ですが、その後はオフラインですべての機能を使用することができます。 - ラマ3.2モデルに切り替えるにはどうすればいいですか?
設定>モデル管理でLlama 3.2を選択し、ダウンロードしてインストールし、詳細についてはGitHubリポジトリを参照してください。<README.md>
ドキュメンテーション - 対応言語は?
主に繁体字中国語、標準中国語、中国語と英語の混在したシナリオをサポートし、音声認識とテキスト生成は台湾標準中国語に最適化されている。 - 機器の性能不足についてはどうなのか?
4GB以上のRAMを搭載したデバイスを使用するか、性能要件を下げるために軽量モデルを選択することをお勧めします。