Voxtralは、フランスのAIスタートアップMistral AIが2025年7月15日にリリースした初のオープンオーディオモデルである。 Voxtralは、生産環境用の音声理解機能をすぐに使える商用アプリケーションを、市場競争力の高い価格で提供することを目的としている。 Voxtralモデルには、以下の2つのバージョンがある。
SimpleListenJournalはBaiduが提供する音声/動画テキスト変換ツールで、音声や動画コンテンツを素早くテキストに変換し、AIによるインテリジェントな分析を提供する。ユーザーは音声やビデオ、入力テキストをアップロードすることで、高精度の書き起こし結果と自動要約を得ることができる。このプラットフォームは多言語に対応しており、...
Tencent Meeting AI Assistant Proは、テンセントがオンライン会議の効率と利便性の向上を目指して発表したインテリジェントな会議支援ツールである。人工知能技術によって会議の内容をリアルタイムで分析し、パーソナライズされたリマインダーを提供したり、重要な情報を要約したり、ToDoリストを作成したりすることで、ユーザーが議論に集中し、重要な情報を見逃さないようにサポートする。
フラッシュノートは、ネイル社が発表したスマートなメモツールで、ユーザーが情報を素早く記録、整理、共有できるように設計されている。音声、テキスト、画像など様々な記録方法をサポートしており、個人でもチームでも、仕事、勉強、生活の中で効率的にメモを管理するのに適しています。フラッシュノートは、インテリジェント技術によって音声をテキストに変換し、自動的に...
Kyutai Labsのdelayed-streams-modellingプロジェクトは、DSM(Delayed Stream Modelling)技術をコアとしたオープンソースの音声テキスト変換フレームワークです。リアルタイム音声テキスト変換(STT)と音声合成(TTS)機能をサポートしており、効率的な音声対話アプリケーションの構築に適しています。このプロジェクトでは、STTおよびTTSのためのP...
Very Fast Dictationは、Macユーザーのために設計されたオープンソースの音声テキスト変換ツールです。テキスト入力を必要とするあらゆる場面で、高速音声認識技術を使ってユーザーの発言をリアルタイムでテキストに変換する。このプロジェクトはGitHubでホストされており、開発者のAvi Aryanによって開発されました。
Simple Subtitling はオープンソースの音声字幕生成ツールで、動画や音声ファイルの字幕を自動生成し、話者をラベル付けすることに重点を置いています。GitHubでホストされているJaesung Huhによって開発されたプロジェクトで、シンプルで効率的な字幕生成ソリューションを提供することを目的としています。音声処理技術によるツール。
Abogenは、ePub、PDFまたはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。Kokoro-82Mモデルを使用して自然で滑らかな音声を生成し、同時字幕生成をサポートしているため、オーディオブック、ビデオ吹き替え、学習教材に適しています。ユーザーが選択できる...
Kimi-Audioは、Moonshot AIによって開発されたオープンソースの音声ベースモデルで、音声の理解、生成、対話に焦点を当てています。音声認識、音声Q&A、音声感情認識など、幅広い音声処理タスクをサポートしています。このモデルは、1,300万時間を超える音声データを使って事前に訓練されており、革新的な...
オンデバイスAIは完全にオフラインで動作するAIアプリで、iOS、macOS、visionOSをサポートするアップルデバイス用に設計されています。ローカルの大規模言語モデル(LLM)の実行、リアルタイムの音声転写、文書分析などを提供し、データのプライバシーを確保するためにインターネット接続なしで使用できます。ユーザーは音声...
Vexaは、企業や個人向けに効率的な会議記録とインテリジェントな知識抽出サービスを提供するために設計された、オープンソースのリアルタイム会議記録および知識管理プラットフォームです。API駆動の会議ロボットによってGoogle MeetやZoomなどのプラットフォームに自動的に参加し、リアルタイムで音声をテキストに書き起こし、99種類の...
realtime-transcription-fastrtcは、音声をリアルタイムでテキストに変換することに特化したオープンソースプロジェクトです。FastRTC技術を使って低遅延の音声ストリームを処理し、ネイティブのWhisperモデルと組み合わせて効率的な音声認識を行う。このプロジェクトは開発者のsofi444、tor...によって管理されています。
TranskriptorはAIを活用したテープ起こしツールで、音声や動画を素早くテキストに変換します。最大99%の精度で100以上の言語に対応しており、会議やインタビュー、授業ノートなど、さまざまなシーンに適しています。ファイルをアップロードしたり、直接録音したり、Zoom、Go...などへのリンク経由で書き起こしたりできます。
Otter.aiは、音声をリアルタイムでテキストに変換し、会議のメモ、サマリー、アクションアイテムを自動生成するコア機能を備えたAI搭載の会議管理・音声書き起こしツールです。Zoom、Google Meetなどの会議に自動的に参加し、音声をキャプチャするAIミーティングエージェントによってインテリジェントに機能します。
TurboScribeはAIベースのテープ起こしツールで、音声やビデオを素早くテキストに変換することに重点を置いています。98以上の言語に対応し、99.8%の精度を誇り、音声コンテンツを効率的に処理する必要があるユーザーに最適です。ユーザーはファイルをアップロードしてトランスクライブや字幕を生成することができ、操作は簡単で高速です。
アクアボイスはインテリジェントな音声ベースのテキスト生成ツールで、ユーザーの発話をフォーマットされたテキストに素早く変換することに重点を置いている。2023年にフィニアン・ブラウンとジャック・マッキンタイアによって設立され、米国サンフランシスコを拠点としています。
Dolphinは、DataoceanAIが清華大学と共同で開発したオープンソースモデルで、アジア言語の音声認識と言語認識に特化している。東アジア、南アジア、東南アジア、中東の40の言語と22の中国語方言をサポートしている。このモデルは、21万時間を超える音声データの学習に基づいている。
TwinMindはThirdEar AI, Inc.が開発した「あなたのためにすべてを記憶する」スマートツールです。会話や会議、講義をリアルタイムで録音・テキスト化し、100以上の言語に対応。ユーザーは自分でメモを取る必要はなく、TwinMindが...
Wispr Flowは、ユーザーがコンピューターで素早く文章を書くための音声入力ツールです。タイピングの3倍の速さ」で、ユーザーは自然に話すだけで、Word、Slack、Gmailなどのあらゆるアプリケーションにテキストを入力することができます。