GLM-4.1V-Thinkingは、清華大学(THUDM)のKEG研究室によって開発されたオープンソースの視覚言語モデルで、マルチモーダル推論機能に焦点を当てています。GLM-4-9B-0414の基本モデルをベースに、GLM-4.1V-Thinkingは強化学習と「心の連鎖」推論メカニズムを使って...
Trackerは、ビデオ内のマルチオブジェクトトラッキングに特化したオープンソースのPythonツールライブラリです。SORTやDeepSORTのようないくつかの主要なトラッキングアルゴリズムを統合しており、ユーザーは柔軟なビデオ解析のために異なるオブジェクト検出モデル(例えばYOLOやRT-DETR)を組み合わせることができます。ユーザーは簡単に...
Describe AnythingはNVIDIAといくつかの大学によって開発されたオープンソースプロジェクトで、Describe Anything Model(DAM)を中核としている。このツールは、ユーザーが画像やビデオにマークした領域(ドット、ボックス、落書き、マスクなど)に基づいて、詳細な説明を生成する。このツールは、画像やビデオにマークされた領域(ドットやボックス、落書き、マスクなど)に基づいて詳細な説明を生成します。
Find My KidsはGitHubでホストされているオープンソースプロジェクトで、開発者のTomer Kleinによって作成された。DeepFace顔認識技術とWhatsApp Green APIを組み合わせ、親が子供のWhatsAppグループを監視できるように設計されている。
YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ(THU-MIG)によって開発されたオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズの拡張機能に属し、リアルタイムであらゆる物体を検出し、セグメント化することができる。プロジェクトはGitHu...でホストされている。
SegAnyMoは、UCバークレーと北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の移動物体(人、動物、乗り物など)を自動的に識別し、セグメント化することができる。TAPNet、DINO...を組み合わせている。
RF-DETRはRoboflowチームによって開発されたオープンソースのオブジェクト検出モデルです。Transformerアーキテクチャをベースとしており、その中心的な特徴はリアルタイム効率です。このモデルはMicrosoft COCOデータセットで初めて60APs以上のリアルタイム検出を達成し、RF100-VLベンチマークでも好成績を収めている。
HumanOmniは、HumanMLLMチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルビッグモデルです。人間の映像の分析に重点を置き、画像と音声の両方を処理して、感情、動き、対話の内容を理解するのに役立つ。このプロジェクトでは、240万件の人間中心のビデオクリップと1400万件の......続きを読む
ビジョンエージェントは、LandingAI(Enda Wuのチーム)によって開発され、GitHubでホストされているオープンソースプロジェクトです。高度なエージェントフレームワークとマルチモーダルモデルを活用し、シンプルなプロンプトで効率的なビジョンAIエージェントを生成します。
Make Senseは、コンピュータビジョンプロジェクト用のデータセットを素早く準備できるように設計された、無料のオンライン画像アノテーションツールです。複雑なインストールは不要で、ブラウザからアクセスするだけで使用でき、複数のオペレーティングシステムをサポートし、小規模なディープラーニングプロジェクトに最適です。ユーザーはこのツールを使って、画像を...
YOLOv12は、GitHubユーザーのsunsmarterjieによって開発されたオープンソースプロジェクトで、リアルタイムターゲット検出技術に焦点を当てています。このプロジェクトは、YOLO(You Only Look Once)シリーズのフレームワークに基づいており、従来の畳み込みニューラルネットワーク(CNN)のパフォーマンスを最適化するための注意メカニズムの導入だけでなく、...
VLM-R1は、Om AI Labによって開発され、GitHubでホストされているオープンソースの視覚言語モデリングプロジェクトです。このプロジェクトは、DeepSeekのR1アプローチとQwen2.5-VLモデルの組み合わせに基づいており、強化学習(R1)と教師あり微調整(SFT)技術によってモデルを大幅に改善しています。
HealthGPTは、異種知識適応による統一的な医療視覚理解と生成能力の達成を目指す、最先端の医療グランドビジュアル言語モデルである。このプロジェクトの目標は、医療視覚理解と生成能力を統一された自己回帰フレームワークに統合し、医療画像処理の効率と精度を大幅に向上させることである...
MedRAXは、胸部X線(CXR)解析のために設計された最先端のAIインテリジェンスです。最先端のCXR解析ツールとマルチモーダルな大規模言語モデルを統合し、追加トレーニングなしで複雑な医療クエリを動的に処理します。MedRAXは、モジュール設計と強力な技術基盤により、...
Agentic Object Detectionは、Landing AIが提供する先進的なターゲット検出ツールです。このツールは、データのラベリングやモデルのトレーニングを必要とせず、テキストプロンプトを使用して検出することにより、従来のターゲット検出のプロセスを大幅に簡素化します。ユーザーは画像をアップロードし、検出プロンプトを入力するだけで、AIエージェントが検出を行います。
CogVLM2は清華大学データマイニング研究グループ(THUDM)によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供するように設計されている。このモデルは、画像理解、多ラウンド対話、ビデオ理解をサポートし、8Kまでのコンテンツを扱うことができ、...
DeeptrainはAI動画処理に特化したプラットフォームで、200以上の言語モデルをサポートする高度な技術により、動画コンテンツを様々なAIアプリケーションに効果的に統合することができる。ユーザーは、動画をダウンロードすることなく、動画のURLを提供することでモデルを直接トレーニングすることができる。Deeptrainは、...
Gaze-LLEは、大規模学習エンコーダーに基づいた視線ターゲット予測ツールである。Fiona Ryan、Ajay Bati、Sangmin Lee、Daniel Bolya、Judy Hoffman、James M. Rehgによって開発され、事前に学習された視覚...
Video Analyzerは、コンピュータ・ビジョン、音声転写、自然言語処理技術を組み合わせて、詳細なビデオ・コンテンツの説明を生成する、包括的なビデオ分析ツールです。このツールは、ビデオからキーフレームを抽出し、オーディオコンテンツを書き起こし、自然言語による説明を生成します。