3段階の調和された最適化プログラム
オリオンは、次のようなアーキテクチャ設計によって、セマンティックとアクションの整合という課題を解決する:
- クロスモーダル・アライメント層EVA-CLIP視覚エンコーダ(224×224入力)とQLoRA微調整LLM(7Bパラメータ)共有注意メカニズム
- トレーニング可能なインターフェイスデザイン: VLM出力に軽量アダプタ(0.5Mパラメータのみ)を追加し、テキストコマンドを運動学パラメータとしてエンコードする。
- オンライン修正メカニズムCARLAのRGBDカメラからのリアルタイムフィードバックによる軌道の狂いの修正
具体的な運用手順
- 準備段階:eva02_petr_proj.pthとpretrain_qformer.pthのウェイトファイルをダウンロードする。
- トレーニング設定:configs/train.yamlにjoint_optimisation=Trueを設定する。
- 検証方法:run python eval_gap.py -metric semantic_action_gap
このスキームは、nuScenes検証セットにおいて、82.3%の命令と動作のマッチングを達成し、これはベースライン手法の2.1倍の改善である。これはベースライン手法の2.1倍の改善であり、特に「歩行者に譲る」のような複雑なシナリオにおいて優れている。
この答えは記事から得たものである。Orion:シャオミのオープンソースのエンド・ツー・エンドの自動運転推論・計画フレームワークについて




























