海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

視覚的ターゲット検出

 ウェブサイトを投稿する

Annot8：AIモデル学習のための画像の高速アノテーション
Annot8はmacOS用に設計された画像アノテーションツールで、機械学習モデル用の高品質なデータセットを迅速に準備することを目的としています。画像の一括アップロードをサポートし、直感的なインターフェースとショートカットキー操作によってアノテーションプロセスを簡素化します。ユーザーは、機械学習モデル用の新しい画像を作成できます。
07-29 5570表彰される
GLM-4.1V-Thinking：マルチモーダルな複雑作業を支援するオープンソースの視覚推論モデル
GLM-4.1V-Thinkingは、清華大学（THUDM）のKEG研究室によって開発されたオープンソースの視覚言語モデルで、マルチモーダル推論機能に焦点を当てています。GLM-4-9B-0414の基本モデルをベースに、GLM-4.1V-Thinkingは強化学習と「心の連鎖」推論メカニズムを使って...
07-02 1.6 K0表彰される
Trackers: ビデオオブジェクト追跡のためのオープンソースツールライブラリ
Trackerは、ビデオ内のマルチオブジェクトトラッキングに特化したオープンソースのPythonツールライブラリです。SORTやDeepSORTのようないくつかの主要なトラッキングアルゴリズムを統合しており、ユーザーは柔軟なビデオ解析のために異なるオブジェクト検出モデル（例えばYOLOやRT-DETR）を組み合わせることができます。ユーザーは簡単に...
05-05 1.6 K0表彰される
Describe Anything: 画像やビデオ領域の詳細な説明を生成するオープンソースツール
Describe AnythingはNVIDIAといくつかの大学によって開発されたオープンソースプロジェクトで、Describe Anything Model（DAM）を中核としている。このツールは、ユーザーが画像やビデオにマークした領域（ドット、ボックス、落書き、マスクなど）に基づいて、詳細な説明を生成する。このツールは、画像やビデオにマークされた領域（ドットやボックス、落書き、マスクなど）に基づいて詳細な説明を生成します。
05-05 1.3 K0表彰される
Find My Kids：顔認証とWhatsApp通知による子供の安全監視ツール
Find My KidsはGitHubでホストされているオープンソースプロジェクトで、開発者のTomer Kleinによって作成された。DeepFace顔認識技術とWhatsApp Green APIを組み合わせ、親が子供のWhatsAppグループを監視できるように設計されている。
04-22 1.2 K0表彰される
YOLOE: リアルタイムのビデオ検出と物体分割のためのオープンソースツール
YOLOEは清華大学ソフトウェア学院のマルチメディア・インテリジェンス・グループ（THU-MIG）によって開発されたオープンソースプロジェクトで、正式名称は「You Only Look Once Eye」。PyTorchフレームワークをベースにしており、YOLOシリーズの拡張機能に属し、リアルタイムであらゆる物体を検出し、セグメント化することができる。プロジェクトはGitHu...でホストされている。
04-02 2.0 K0表彰される
SegAnyMo: ビデオから任意の移動物体を自動的にセグメント化するオープンソースツール
SegAnyMoは、UCバークレーと北京大学の研究者チームによって開発されたオープンソースプロジェクトで、Nan Huangなどのメンバーが参加している。このツールはビデオ処理に重点を置いており、ビデオ内の任意の移動物体（人、動物、乗り物など）を自動的に識別し、セグメント化することができる。TAPNet、DINO...を組み合わせている。
04-02 1.6 K0表彰される
RF-DETR：リアルタイム視覚物体検出のためのオープンソースモデル
RF-DETRはRoboflowチームによって開発されたオープンソースのオブジェクト検出モデルです。Transformerアーキテクチャをベースとしており、その中心的な特徴はリアルタイム効率です。このモデルはMicrosoft COCOデータセットで初めて60APs以上のリアルタイム検出を達成し、RF100-VLベンチマークでも好成績を収めている。
03-25 3.0 K0表彰される
HumanOmni：人間のビデオ感情や行動を分析するためのマルチモーダル・マクロモデル
HumanOmniは、HumanMLLMチームによって開発され、GitHubでホストされているオープンソースのマルチモーダルビッグモデルです。人間の映像の分析に重点を置き、画像と音声の両方を処理して、感情、動き、対話の内容を理解するのに役立つ。このプロジェクトでは、240万件の人間中心のビデオクリップと1400万件の......続きを読む
03-18 1.7 K0表彰される
視覚エージェント：複数の視覚的ターゲット検出タスクを解決する視覚インテリジェンス
ビジョンエージェントは、LandingAI（Enda Wuのチーム）によって開発され、GitHubでホストされているオープンソースプロジェクトです。高度なエージェントフレームワークとマルチモーダルモデルを活用し、シンプルなプロンプトで効率的なビジョンAIエージェントを生成します。
02-28 1.6 K0表彰される
MakeSense：コンピュータビジョンプロジェクトの効率を高める、無料で使える画像注釈ツール
Make Senseは、コンピュータビジョンプロジェクト用のデータセットを素早く準備できるように設計された、無料のオンライン画像アノテーションツールです。複雑なインストールは不要で、ブラウザからアクセスするだけで使用でき、複数のオペレーティングシステムをサポートし、小規模なディープラーニングプロジェクトに最適です。ユーザーはこのツールを使って、画像を...
02-24 2.5 K0表彰される
YOLOv12：リアルタイム画像・ビデオターゲット検出のためのオープンソースツール
YOLOv12は、GitHubユーザーのsunsmarterjieによって開発されたオープンソースプロジェクトで、リアルタイムターゲット検出技術に焦点を当てています。このプロジェクトは、YOLO（You Only Look Once）シリーズのフレームワークに基づいており、従来の畳み込みニューラルネットワーク（CNN）のパフォーマンスを最適化するための注意メカニズムの導入だけでなく、...
02-23 2.6 K0表彰される
VLM-R1：自然言語による画像ターゲットの位置決定のための視覚言語モデル
VLM-R1は、Om AI Labによって開発され、GitHubでホストされているオープンソースの視覚言語モデリングプロジェクトです。このプロジェクトは、DeepSeekのR1アプローチとQwen2.5-VLモデルの組み合わせに基づいており、強化学習（R1）と教師あり微調整（SFT）技術によってモデルを大幅に改善しています。
02-23 2.0 K0表彰される
HealthGPT：医療画像解析と診断Q&Aを支援する医療ビッグモデル
HealthGPTは、異種知識適応による統一的な医療視覚理解と生成能力の達成を目指す、最先端の医療グランドビジュアル言語モデルである。このプロジェクトの目標は、医療視覚理解と生成能力を統一された自己回帰フレームワークに統合し、医療画像処理の効率と精度を大幅に向上させることである...
02-20 1.8 K0表彰される
MedRAX：マルチモーダル・マクロモデルを用いた胸部X線写真解析のためのインテリジェントボディ
MedRAXは、胸部X線（CXR）解析のために設計された最先端のAIインテリジェンスです。最先端のCXR解析ツールとマルチモーダルな大規模言語モデルを統合し、追加トレーニングなしで複雑な医療クエリを動的に処理します。MedRAXは、モジュール設計と強力な技術基盤により、...
02-10 1.9 K0表彰される
エージェントによる物体検出：注釈やトレーニングを必要としない視覚的物体検出ツール
Agentic Object Detectionは、Landing AIが提供する先進的なターゲット検出ツールです。このツールは、データのラベリングやモデルのトレーニングを必要とせず、テキストプロンプトを使用して検出することにより、従来のターゲット検出のプロセスを大幅に簡素化します。ユーザーは画像をアップロードし、検出プロンプトを入力するだけで、AIエージェントが検出を行います。
02-08 1.9 K0表彰される
CogVLM2: 映像理解と複数回の対話を支援するオープンソースのマルチモーダルモデル
CogVLM2は清華大学データマイニング研究グループ（THUDM）によって開発されたオープンソースのマルチモーダルモデルで、Llama3-8Bアーキテクチャをベースとしており、GPT-4Vに匹敵するか、それ以上の性能を提供するように設計されている。このモデルは、画像理解、多ラウンド対話、ビデオ理解をサポートし、8Kまでのコンテンツを扱うことができ、...
02-08 1.8 K0表彰される
Deeptrain：ビデオコンテンツを大きなモデルで検索可能な情報に変換する
DeeptrainはAI動画処理に特化したプラットフォームで、200以上の言語モデルをサポートする高度な技術により、動画コンテンツを様々なAIアプリケーションに効果的に統合することができる。ユーザーは動画をダウンロードすることなく、動画のURLを提供することでモデルを直接トレーニングすることができる。
01-29 1.8 K0表彰される
Gaze-LLE：映像中の人物注視のターゲット予測ツール
Gaze-LLEは、大規模学習エンコーダーに基づいた視線ターゲット予測ツールである。Fiona Ryan、Ajay Bati、Sangmin Lee、Daniel Bolya、Judy Hoffman、James M. Rehgによって開発され、事前に学習された視覚...
01-24 2.2 K0表彰される

日本語