BAGELは、ByteDance Seedチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルベースモデルです。テキスト理解、画像生成、編集機能を統合し、クロスモーダルなタスクをサポートします。このモデルは7Bのアクティブパラメータ(合計14Bのパラメータ)を持ち、Mixture-of-Tra...
DeepResearchAgentは、SkyworkAIによって開発されたオープンソースのAIツールで、ディープリサーチの自動化に焦点を当てています。検索エンジン、ウェブクローリング、大規模言語モデリング(LLM)を組み合わせることで、ユーザーが詳細な調査レポートを素早く作成できるように支援する。ユーザーは研究トピックや質問を入力するだけで、ツールが自動的に検索...
Muscle-MemはGitHubでホストされているオープンソースのPythonツールで、pig-dot-devによって開発された。AIエージェントに振る舞いキャッシュ機能を提供し、繰り返しタスクにおける大規模言語モデル(LLM)の呼び出しを削減することで、高速な実行、ばらつきの低減、コスト削減を実現するように設計されている。
Simple Subtitling はオープンソースの音声字幕生成ツールで、動画や音声ファイルの字幕を自動生成し、話者をラベル付けすることに重点を置いています。GitHubでホストされているJaesung Huhによって開発されたプロジェクトで、シンプルで効率的な字幕生成ソリューションを提供することを目的としています。音声処理技術によるツール。
arXiv Summarizerは、GitHubでホストされているオープンソースのPythonスクリプトツールで、ユーザーがarXivプラットフォームから学術論文に素早くアクセスして要約を生成できるように設計されています。フリーのGemini APIを利用して効率的にテキストを要約することができ、研究者や学生、アカデミック...
Sim StudioはオープンソースのAIエージェントワークフロー構築プラットフォームで、軽量で直感的なビジュアルインターフェースを通じて、大規模言語モデル(LLM)ワークフローの迅速な設計、テスト、デプロイを支援します。ユーザは、深いプログラミングをすることなく、ドラッグ&ドロップで複雑なマルチエージェントアプリケーションを作成することができます。このアプリケーションのサポートは ...
Mad Professor (暴躁的教授读论文)は、研究者や学生のために設計されたオープンソースのAI学術ツールで、学術論文の読解と分析を簡素化します。PDF処理、AI翻訳、RAG検索、AI Q&A、音声対話を統合している。ユーザーはPDF論文をインポートすることができます...
AIstudioProxyAPIは、Node.jsとPlaywrightテクノロジーを使用して、Google AI StudioウェブバージョンのGeminiモデル対話機能を、OpenAI APIをエミュレートすることで標準的なAPI接続に変換するオープンソースプロジェクトです。
Step1X-Editは、Stepfun AIチームによって開発され、GitHubでホストされているオープンソースの画像編集フレームワークです。マルチモーダル大規模言語モデル(Qwen-VL)と拡散変換器(DiT)を組み合わせることで、ユーザーは、背景を変更したり、オブジェクトを削除したり、風を変換するなどの簡単な自然言語コマンドで画像を編集することができます。
Klavis AIは、AIアプリケーションが外部のツールやデータソースと動的に接続することを可能にするオープンスタンダード、モデルコンテキストプロトコル(MCP)の使用と統合を簡素化することに焦点を当てたオープンソースプラットフォームです。Klavis AIは、Slack、Discordクライアント、ホスト型MCPサーバー、および簡素化を提供します。
RealtimeVoiceChatは、音声を介した人工知能とのリアルタイムで自然な会話に特化したオープンソースプロジェクトである。ユーザーはマイクを使って音声を入力し、システムはブラウザを通して音声をキャプチャし、素早くテキストに変換し、大規模言語モデル(LLM)から返答を生成し、テキストを音声出力に変換する。
MiMoはXiaomiによって開発されたオープンソースの大規模言語モデリングプロジェクトであり、数学的推論とコード生成に焦点を当てている。コアプロダクトはMiMo-7Bファミリーのモデルで、ベースモデル(Base)、教師あり微調整モデル(SFT)、ベースモデルから学習した強化学習モデル(RL-Zero)、ベースモデルから学習したSFTモデルから構成される。
Muyan-TTSは、ポッドキャスティングシナリオ用に設計されたオープンソースの音声合成(TTS)モデルです。100,000時間以上のポッドキャストオーディオデータで事前にトレーニングされており、ゼロサンプル音声合成をサポートし、高品質の自然な音声を生成します。このモデルはLlama-3.2-3Bをベースに構築されており、SoVITSデコーダーと組み合わせることで、高音質の音声合成を実現します。
CAD-MCPは、CADソフトウェアの描画操作を自然言語コマンドで制御できるようにするオープンソースプロジェクトです。自然言語処理とCAD自動化技術を組み合わせることで、ユーザーはCADインターフェースを手動で操作する必要がなく、簡単なテキストコマンドを入力するだけで図面を作成・修正することができます。このプロジェクトは様々なCADソフトをサポートしています。
GraphGenは、上海のAIラボであるOpenScienceLabによって開発されたオープンソースのフレームワークで、GitHubでホストされている。知識グラフを通して合成データ生成をガイドすることで、大規模言語モデル(LLM)の教師ありファインチューニングを最適化することに焦点を当てている。予想されるキャリブレーション誤差を利用して、ソーステキストからきめ細かな知識グラフを構築する。
ACI.devは、AIインテリジェンスに600以上のツールへの迅速な統合を提供するために設計されたオープンソースのインフラストラクチャプラットフォームです。マルチテナント認証ときめ細かな権限管理により、インテリジェンスがGoogleカレンダー、Slack、Brave Searchなどのツールに安全にアクセスできるようにします。
llm.pdfはLarge Language Models (LLM)をPDFファイルで直接実行できるオープンソースプロジェクトです。EvanZhouDevによって開発され、GitHubでホストされているこのプロジェクトは、Emscriptenを介してllama.cppをコンパイルするという革新的なアプローチを示しています。
Abogenは、ePub、PDFまたはプレーンテキストファイルを高品質な音声に素早く変換するために設計されたオープンソースツールです。Kokoro-82Mモデルを使用して自然で滑らかな音声を生成し、同時字幕生成をサポートしているため、オーディオブック、ビデオ吹き替え、学習教材に適しています。ユーザーが選択できる...
Local Deep Researchは、ユーザーが深い研究を行い、複雑な問題の詳細なレポートを作成するために設計されたオープンソースのAI研究アシスタントです。ローカルでの実行をサポートしており、ユーザーはクラウドサービスに依存することなく研究タスクを完了することができる。このツールは、ローカル大規模言語モデリング(LLM)...