Xunfei Zhizuoは、人工知能コンテンツ作成サービスを提供するためにXunfeiによって開発されたプラットフォームです。その中核機能は、ユーザーが入力したテキストを音声に変換することであり、このプロセスはしばしば「AIダビング」または「音声合成」と呼ばれる。ユーザーは、ニュース放送、映画やテレビの解説、ウィットに富んだユーモアなど、さまざまなスタイルであらかじめプログラムされたバーチャルボイス(すなわち「キャスター」)から、さまざまなアプリケーションシナリオに合わせて選択することができる。
純粋な音声生成に加え、Xunfei Intelligent Work Platformはさらにテキストとナレーションを組み合わせ、「AIデジタル人」による放送動画を生成することができる。ユーザーはテキストを提供するだけで、バーチャルなアンカー口上動画を素早く作成することができ、生身の人間がカメラに登場する必要がなくなる。本プラットフォームは、コピーライティングから音声、映像まで一貫した工程を統合しており、プロモーションビデオや教材ビデオ、ショートビデオなどのコンテンツを量産するユーザーにとって、コスト削減と効率化を実現できるツールとなっている。KDDIの音声認識、自然言語処理、画像生成などの技術を活用している。
機能一覧
- AIダビングテキストを入力し、好きなアンカーボイスとBGMを選択して、ダビングを素早く作成できます。音声のスピード、トーン、ボリュームの調整をサポートし、多声の単語や英単語の正しい発音を挿入することができます。
- デジモンビデオテキストを入力し、AIバーチャルキャスター画像を選択すると、システムが自動的にキャスター放送ビデオを生成します。キャスターのイメージ、服装、背景のカスタマイズをサポート。
- 音響再生ユーザーは自分の音声サンプルをアップロードすることができ、プラットフォームはユーザーの音色に近い専用音声をクローンし、その後のアフレコに利用することができる。
- ダブ同一ファイル内の異なる段落のダビングに異なるAIアンカーを割り当てることができ、ダイアログ形式の音声を簡単に作成できます。
- ビデオ・テンプレートあらかじめ設定されたさまざまなビデオテンプレートを提供し、ユーザーは生成されたデジタルヒューマンビデオをテンプレートにすばやく適用して、グラフィックパッケージを備えた完全なビデオを生成することができます。
- インテリジェント・キャプション字幕は自動的に生成され、ビデオの生成中にビデオのコンテンツに合わせることができます。
- AIGCツールボックス他のAI作成ツールを統合し、ユーザーのコンテンツ作成を支援。
ヘルプの使用
Cyberoamはインストール不要で、ブラウザから公式サイトにアクセスすることで直接利用できる。主な機能は「AIボイスオーバー」と「デジタルヒューマンビデオ」の2つ。
AIダビング機能操作プロセス
AIダビング機能の目的は、テキスト原稿を高品質の音声ファイルに直接変換することです。
- ナレーション・プロジェクトの作成
- Xunfei Intelligent Workのウェブサイトにアクセスし、メインインターフェイスの「AIダビング」または「今すぐ作成」ボタンをクリックします。
- Voiceover Workbenchに入ると、新しいプロジェクトを作成するよう促されます。
- テキストの入力またはインポート
- ワークベンチ中央のテキスト編集エリアでは、ダビングしたいトランスクリプトを直接入力またはペーストすることができます。
- テキストが長い場合は
导入文档
サポートする機能.txt
そして.docx
などの形式がある。
- AIアンカーの選択
- ワークベンチの右側には "アンカー選択 "パネルがある。ここには「アンカー」と呼ばれる数百種類のAIボイスが表示されている。
- 言語(標準語、方言、外国語)、スタイル(ニュース、広告、小説、カスタマーサービスなど)、性別などのタグに基づいてアンカーをフィルタリングできます。
- キャスターのアバターをクリックすると、そのキャスターの口調が試聴できます。原稿の内容に最もマッチすると思われるキャスターを選んでください。
- 微調整
- マルチ・アンカー・ナレーション対話形式の文章であれば、段落を選んで特定のアンカーを割り当てることができる。こうすることで、1つのテキストに複数の「人物」を登場させることができます。
- 句切り一時停止が必要な場合は、ツールバーの
插入停顿
ボタンを押すと、ミュートの時間を0.1秒から数秒の間で設定でき、より自然なリズムで発声することができます。 - 発音の調整多声文字の場合、通常は文脈に基づいてシステムが自動的に判断しますが、手動で修正することもできます。漢字を選択して
多音字
機能を使って正しいピンインを選択することができます。数字や英語の場合、正しいピンインを選択することも可能です。数字/英文
関数を使用して、どのように読み取るかを設定することができる(例えば、数値として読み取るか、数値の列として読み取るか)。 - 声のスピード/トーンを調整する右側のパネルでは、生成された音声の全体的なスピード(発話速度)とレベル(イントネーション)を調整できます。
- BGMの追加
- 下の "BGM "エリアで "Add Music "をクリックし、プラットフォームの音楽ライブラリから選択するか、独自の音楽ファイルをアップロードします。
- BGMの音量レベルは、ボーカルに負けないように調整できる。
- 生成とエクスポート
- すべての設定が完了したら、"Start Synthesis "または "Audition "ボタンをクリックします。
- 結果に満足したことを確認したら、"Generate Full Audio "をクリックします。オーディオが生成されたら、個人用ワークセンターでオーディオを検索し、以下の形式でエクスポートすることができます。
.mp3
またはその他のフォーマット。
II.デジタル・ヒューマン・ビデオ機能の操作プロセス
この機能は、AIダビングにアバターを追加し、動画を直接生成する。
- ビデオ制作モードの選択
- 公式サイトのトップページで「デジタルピープル・ビデオ」または関連ポータルを選択する。
- プラットフォームは通常、2つのモードを提供している。1つは、プラットフォームがプリセットしたテンプレートを使用するもの(初心者にお勧め)、もう1つは自由に作成するものだ。
- デジタル・ペルソナとシナリオの選択
- Video Workbenchにアクセスするには、まず右側の「デジタル人物」画像を選択します。このプラットフォームでは、さまざまなスタイル、職業、年齢のアバターが用意されています。
- 次に、デジタル人物の背景を選びます。無地の背景でも、写真の背景でも、スタジオやオフィスなどのプリセットシーンでもかまいません。自分の写真やビデオを背景としてアップロードすることもできます。
- 入力ドライバーテキスト
- AIナレーションと同様に、テキストボックスにビデオテキストを入力します。ここのテキストは、ナレーションを生成するためと、デジタイザーのマウスピースを駆動するために使用されます。
- この時点で、このテキストに適切なAIのアンカー・ボイスを選ぶ必要がある。この声は、あなたのデジタル・パーソンの声になる。
- ビデオ画面の配置
- CyberSmartWorksは、ビデオ編集ソフトウェアのようなタイムラインインターフェースを提供します。
- ステッカー」や「テキスト」などの要素を画面に追加したり、その出現時間や消滅時間を設定したりできる。
- ご希望であれば、ご自身の写真やビデオクリップをアップロードし、デジタルマン放送の映像に挿入して、ビデオコンテンツを充実させることもできます。
- プレビューとジェネレーション
- すべての編集が終わったら、「プレビュー」ボタンをクリックしてください。デジタル人物の口、声、画面要素の正確さを確認してください。
- エラーがないことを確認したら、"Generate Full Video "をクリックします。ビデオのレンダリングには、ビデオの複雑さや長さによって時間がかかります。
- 完成したら、あなたの個人的なアートワークにダウンロードすることができます。
.mp4
ビデオファイル。
アプリケーションシナリオ
- ショートビデオコンテンツの制作
個人のブロガーやマーケティングチームは、知識科学や製品紹介、映画の解説など、話し言葉による動画を素早く大量に生成できる。コピーを用意し、実在の人物をAIのデジタル人物に置き換えて登場させるだけで、コンテンツの更新頻度を大幅に高めることができる。 - コーポレート・コミュニケーションとトレーニング
企業は、社内研修資料、方針説明ビデオ、社外向けニュースなどの制作に利用できる。統一されたデジタル・ペルソナと音声を使用することで、俳優や撮影クルーを雇うコストを削減しながら、標準化されたブランド・イメージを開発することができます。 - 教育用コースウェア制作
教師や教育機関は、このプラットフォームを使って、書かれた授業計画をオーディオブックや教育用ビデオに素早く変換することができます。これは、言語学習、歴史物語、その他のシナリオで特に有用で、鮮やかなオーディオやビデオ形式は、単純なテキストよりも生徒にとって魅力的です。 - 広告放送と通知
ショッピングモール、地下鉄、オンラインショップなどでは、販促活動のための音声広告やサービス通知を素早く生成することができる。AIダビングの低コストで高効率な利点は、頻繁にコンテンツを変更する必要があるシナリオに関しては明らかです。
品質保証
- サイバーウィズダムは無料ですか?
このプラットフォームは無料トライアルを提供しており、ユーザーは基本的なダビングとビデオ生成機能を体験することができます。ただし、無料版では、利用可能なアンカーの数、エクスポートされるファイルの品質と長さに制限があり、ウォーターマークが付属する場合があります。より多くのプレミアム・アンカー、より高品質のオーディオおよびビデオ出力、より長い制作期間を利用するには、メンバーシップが必要です。 - 生成されたサウンドやビデオは市販されていますか?
購入するメンバーシップ・パッケージによって異なります。通常、有料の商用版メンバーシップで生成されたオーディオおよびビデオコンテンツは、商用利用が許可されています。無料版や個人版で生成されたコンテンツの商用利用は、著作権のリスクがある場合がありますので、利用前にプラットフォームのサービス規約をよく読む必要があります。 - 自分の声でダビングできますか?
できる。Xunfei Zhizuoは「声の複製」機能を提供する。あなたはプロンプトに従って指定されたテキストを録音する必要があります(通常、数十から数百の文章が必要です)、プラットフォームは、あなたの音質を模倣するAI音声モデルを訓練するためにこれらの録音を使用します。その後、ダビングの際にこの「クローン」音声を選ぶことができる。 - デジモンのビデオの口と声はぴったり合っていますか?
ほとんどの場合、口の形と声の同期は比較的正確である。このプラットフォームのコア技術のひとつは口唇予測で、発音に基づいてアバターの口の動きを動かします。しかし、速い単語や複雑な単語の組み合わせの場合、時折わずかなずれが生じることがあり、その場合はテキストのポーズやスピードを調整することで最適化することができます。