生成AIの二大潮流と自動運転 (original) (raw)

Turing株式会社 ⽣成AIチーム
荒居 秀尚
2024/09...")

なぜ⾃動運転の会社が、NLPのシンポジウムに?
「異分野交流」
「ことばがつむぐ、新たなつ...")

⾃動運転開発の⼤きな障壁は“エッジケース”
次のようなケース、皆さんが直⾯したらどう対処し...")

⾃動運転開発の⼤きな障壁は“エッジケース”
⾃動運転研究の最先端では、これを“ことば”を⽤...")

⾃動運転AIの役割
周囲の環境に関する⼊⼒から、⾃⾞が進むべき経路(パス)を出⼒する
自...")

End-to-End⾃動運転AI
マルチカメラ画像
Neural Network
将来の...")

⽣成AI周りではLLMと拡散モデルが⼆⼤トレンド
ICLR2024
https://gi...")

LLM / 拡散モデルについて
a. LLMの発展に伴って発達した考え⽅/⼿法
b. 拡...")

LLMの発展に伴い発達‧浸透した考え⽅/⼿法
⾊々あるとは思いますが‧‧‧
● ⾔語以外...")

LLM / 拡散モデルについて
a. LLMの発展に伴って発達した考え⽅/⼿法
b. 拡...")

拡散モデルの代表的な使⽤例
テキストからの画像⽣成
Rombach, Robin, et...")
with latent diffusion models." CVPR 2022. https://github.com/CompVis/stable-diffusion テキストからの動画⽣成 https://research.nvidia.com/labs/toronto-ai/VideoLDM/ Blattmann, Andreas, et al. "Align your latents: High-resolution video synthesis with latent diffusion models." CVPR 2023. 画像の編集 Saharia, Chitwan, et al. "Palette: Image-to-image diffusion models." SIGGRAPH 2022.

拡散モデルの発展に伴い発達‧浸透した考え⽅
⾊々あるとは思いますが‧‧‧
● 反復的に解...")

運転は驚くほど難しく、⼈間は驚くほど賢い
")

運転環境はロングテール
運転状況の難しさ
頻度
少 ←
→ 難
易 ←
→ 多
多い /...")
→ 多 多い / 簡単 少ない / 難しい 交通環境には頻度が少ないが、 多様で困難な状況が存在する (= ロングテール) 100%に近づけるには既存の技術 では達成困難 数%の極めて難しい状況に対応するには、⾛⾏データから得られる経験では不⼗分 Makansi, Osama, et al. "On exposing the challenging long tail in future prediction of traffic actors." ICCV 2021.

VLMにアクションをどう出⼒させるか?
問い:連続値のアクションをLLMに出⼒させるには...")

VLMにアクションをどう出⼒させるか?
問い:連続値のアクションをLLMに出⼒させるには...")

VLAモデルの⾃動運転への活⽤
Arai, Hidehisa, et al. "CoVL...")
for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) 画像 - ⾔語 - アクションを統合したデータセットを作成 ポスターも出しています([S5-P04]) Language Action “ The ego vehicle is moving slowly and turning right. There is a traffic light displaying a green signal … “ Frame-level captions Future trajectories Object of concern Scene recognition Reasoning captions Rule-based algorithm Behavior captions Sensor fusion Reconstructed trajectory Sensor signals Control information Throttle/brake position Steering angle Turn signal Vision 30s x 10,000 videos Radar Leading vehicle Position Speed Position Signal Object detection model Traffic light VLM

VLAモデルの⾃動運転への活⽤
⾔語による⾏動計画により解釈性も向上させられる可能性があ...")
Dataset for Autonomous Driving." arXiv preprint arXiv:2408.10845 (2024) Ground truth caption: The ego vehicle is moving straight at a moderate speed following leading car with acceleration. There is a traffic light near the ego vehicle displaying a green signal. … Predicted caption: The ego vehicle is moving at a moderate speed and turning right. There is a traffic light near the ego vehicle displaying a green signal. … VLAMが予測した軌跡 VLAモデルを使って、⾔語で運転判断をさせ、さらにそれを実際の操作にまで反映させる 実際の軌跡

LINGO-2
https://wayve.ai/thinking/lingo-2-dr...")

世界モデルの構築に⽣成AIを⽤いる
「アクションで条件付け可能な未来の動画⽣成」を⽣成A...")
[Hafner+]などで使われて いる。⾃動運転関連ではほとんど使 われていない。 Hafner, Danijar, et al. "Mastering diverse domains through world models." arXiv preprint arXiv:2301.04104 (2023). Autoregressive Transformer ⾃⼰回帰トランスフォーマーを⽤い て未来の状態予測を⾏う⽅式。 IRIS(後述)などで⽤いられている。⾃ 動運転関連では、GAIA-1(後述)が有 名。 Robine, Jan, et al. "Transformer-based world models are happy with 100k interactions." ICLR 2023. Diffusion Models 拡散モデルを⽤いて将来の状態予測 を⾏う⽅式。GameNGen(後述)など はこの⽅式。⾃動運転では⾼精細な 映像が求められるため、この⽅式が 主流になっている。 Valevski, Dani, et al. "Diffusion Models Are Real-Time Game Engines." arXiv preprint arXiv:2408.14837 (2024). ⾃動運転分野で主流の⽅式

⾃動運転における世界モデルの取り組み③:Terra
チューリングでも⾃⼰回帰Transf...")

⾃動運転への⽣成AI活⽤の課題
① 推論速度の課題
② Long Contextの問題
...")

⾃動運転への⽣成AI活⽤の課題
① 推論速度の課題
② Long Contextの問題
...")

⾃動運転への⽣成AI活⽤の課題
① 推論速度の課題
② Long Contextの問題
...")

権限委譲できる⾃動運転システムの例:Tesla FSD
")

Appendix
")

画像特徴をどうトークン化するか
Projectorを⽤いる⽅法と、特殊トークンにCros...")
Transformer ⾔語のトークン列 Image Encoder Adapter ⾔語のトークン列 Transformer 特殊トークン Projectorを⽤いる⽅式 GIT [Wang+], LLaVA [Liu+]など Cross Attentionを⽤いる⽅式 BLIP2 [Li+], Flamingo [Alayrac+] など Alayrac, Jean-Baptiste, et al. "Flamingo: a visual language model for few-shot learning." NeurIPS 2022. Li, Junnan, et al. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." ICML 2023. Wang, Jianfeng, et al. "Git: A generative image-to-text transformer for vision and language." arXiv preprint arXiv:2205.14100 (2022). Liu, Haotian, et al. "Visual instruction tuning." NeurIPS 2024.