エンド・ツー・エンドの自律走行における意味論的推論と行動出力のギャップを克服するには？

2025-08-25

1.5 K

3段階の調和された最適化プログラム

オリオンは、次のようなアーキテクチャ設計によって、セマンティックとアクションの整合という課題を解決する：

クロスモーダル・アライメント層EVA-CLIP視覚エンコーダ（224×224入力）とQLoRA微調整LLM（7Bパラメータ）共有注意メカニズム
トレーニング可能なインターフェイスデザイン: VLM出力に軽量アダプタ（0.5Mパラメータのみ）を追加し、テキストコマンドを運動学パラメータとしてエンコードする。
オンライン修正メカニズムCARLAのRGBDカメラからのリアルタイムフィードバックによる軌道の狂いの修正

具体的な運用手順

このスキームは、nuScenes検証セットにおいて、82.3%の命令と動作のマッチングを達成し、これはベースライン手法の2.1倍の改善である。これはベースライン手法の2.1倍の改善であり、特に「歩行者に譲る」のような複雑なシナリオにおいて優れている。