ICRA2024 速報 (original) (raw)

ICRA 2024 Accepted Papers...")
Keynote talks: 15 • Papers: 2337 in 285 sessions • Regular paper submissions: 3937 from 58 countries and regions • Accepted paper: 1760 (採択率 44.7%) • RAS journals: 577 (RA-L 451, T-RO 84, T-ASE 25, and RA Magazine 17) 8 日本は全体の5番手 投稿元 年度 開催地 投稿数 採択論文数 採択率 2024 Yokohama, Japan 3,937 1,760 45% 2023 London, UK 3,125 1,345 43% 2022 Philadelphia, USA 3,313 1,428 43% 2021 Xi'an, China 4,005 1,946 49% 2020 Paris, France (Online) 3,466 1,483 44% 2019 Montreal, Canada 2,902 1,317 45% 2018 Brisbane, Australia 2,586 1,056 41% 2017 Singapore 2,289 939 41% 参考: 2023年までの情報を下記から取得。 あくまで参考値としてご確認ください。 https://research-p.com/column/1287 https://staff.aist.go.jp/k.koide/acceptance-rate.html

Plenary Talk by Dr. Yoky...")
• How to Turn a Roboticist into a Corporate Explorer ◦ 重要なキーワードである 「Corporate Explorer」について自身の経歴や経験を踏まえて解説。 ◦ これまでの研究開発の立ち位置は ”一方通行”になっている? ▪ アカデミックな研究者 =論文を量産するが、製品は作らない。資金力は低い 💲 ▪ アカデミックなエンジニア( MS Research, Google Deep Mindなど) =新しい技術を提案しつつ、製品への展開を考える。論文はほぼ書かない。 ▪ 企業(起業家)のエンジニア =製品開発に専念する。論文は書かない。資金力はある 💲💲💲 ◦ 研究者は起業家に学ぶべきであり、またその逆もしかり ▪ 現在のグローバル市場で意義深いビジネスを創出(≒資金調達)には ロボット研究者も枠組みを打ち破る ”Corporate Explorer”になるべきだ! → 現代の企業の成長とイノベーションの形である 18

Plenary Talk by Prof. Sa...")
Intelligence, Technical University of Munich • The Great Robot Accelerator: Collective Learning of Optimal Embodied AI ◦ ロボットの成長には「身体性」「知能」の 自律的な共進化が必要不可欠である。 ◦ AIによるロボットの進化に向けて、 Collective Learning (集団学習)と Embodied AI に関する概念を紹介。 ◦ まず身体を持たない AIだけが学習を進めても、 必ずしもロボットの改善にならない。 → どのようなハードウェアを有するののか、 を考えながらでないと変革は引き起こせない。 19 転載:https://2024.ieee-icra.org/

[Exhibition] 日立と早稲田大学尾形研...")

[Award Session] Robot Ma...")
datasets and RT-X Models Towards Generalizable Zero-shot Manipulation via Translating Human Interaction Plans [Best Conference Paper Award] • Hearing Touch: Audio-Visual Pretraining for Contact-rich Manipulation • 🎉SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention [Best Paper Award in Robot Manipulation] • DenseTact-Mini: An Optical Tactile Sensor for Grasping Multi-Scale Objects from Flat Surfaces • Constrained Bimanual Planning with Analytic Inverse Kinematics 32 ★ 先進的な研究機関の研究(Googleなど)がエントリー ※robotpaper.challengeのPickupセッション

[Award Session] Robot Ma...")
datasets and RT-X Models • Towards Generalizable Zero-shot Manipulation via Translating Human Interaction Plans [Best Conference Paper Award] • Hearing Touch: Audio-Visual Pretraining for Contact-rich Manipulation • 🎉SARA-RT: Scaling up Robotics Transformers with Self-Adaptive Robust Attention [Best Paper Award in Robot Manipulation] • DenseTact-Mini: An Optical Tactile Sensor for Grasping Multi-Scale Objects from Flat Surfaces • Constrained Bimanual Planning with Analytic Inverse Kinematics 33 ★ 先進的な研究機関の研究がエントリー ★ Googleに関連のある研究が2件 • 結果的にOXEがBest Conference Paperに選出。セッ ションではSARA-RT。 → Foundation model(基盤モデル)関連に注目。 ※Google関連成果は確かに面白く,2023~2024のトレ ンドが現れていると思います。 • タスクの器用さの拡張には、新しいハードウェアが提案 (Tactile Sensing)。画像やテキストなどのトレンドに限ら ず解析的な動作計画 • どの研究も実験や機構的な利点が明確。

[Award Session] Cognitiv...")
Learning to Traverse with Compromised Perception End-To-End • 🎉Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [Best Paper Award in Cognitive Robotics] • Learning Continuous Control with Geometric Regularity from Robot Intrinsic Symmetry • Learning Vision-Based Bipedal Locomotion for Challenging Terrain • 🎉🎉NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [Best Conference Paper Award] 34

[WORKSHOP] 3D Visual Rep...")
Talk #3: Ken Goldberg: Is Data All You Need? Large Robot Action Models and Good Old Fashioned Engineering ◦ 個々のモジュールを組み合わせた技術と E2Eモデルはどちらがいいのか? ◦ データ量がすべてだというが, WaymoはTeslaの1/500のデータで運転ができている ◦ OXEやALOHAなどのデータ利用もあるが,把持の ための大規模データ (Dex-net)やMotion planning, P ID制御など個々の有効なモジュールは産業にも展開 されているため重要な技術である ◦ 手術などはMANIPという個別モジュールをくみあわ せによって実現している ◦ 人間の脳も機能ごとに分割されているため理には かなっている 41

● arXiv等で無料アクセス可能なPreprintが公開されているものに限...")

Mobile Robot Oriented Large-Scale ...")
Understanding • Yi-Fan Tang et al. ◦ THUD (Tsinghua University Dynamic) robotic dataset:モバイルロボット向けの大規模な室内 データセットを提案。特に動的なシーンを推論と学習のために構築されている。 ◦ 主に運用上必要な三次元の推論やセマンティックセグメンテーションなどを想定 ◦ 13の大規模な動的シナリオ、 90Kの画像フレーム、20Mの静的および動的オブジェクトの 2D/3Dバ ウンディングボックス、カメラの姿勢、 IMUを含む 59 https://jackyzengl.github.io/THUD-Robotic-Dataset.github.io/

Multi-Level Reasoning for Robotic ...")
Contact Selection • Xinghao Zhu, Devesh Jha, Diego Romeres, Lingfeng Sun, Masayoshi Tomizuka, Anoop Cherian (University of California, Berkeley, Mitsubishi Electric Research Laboratories) ◦ ロボットによる組立の学習ベースの計画手法を提案している ◦ 動力学シミュレータ上で組み立て済みのパーツに力を加えてパーツを分離させることができれば分解成功という基準 で組立順序のデータセットを構築し,Transformerを学習する ◦ パーツの組立順序,パーツの動き,パーツの把持位置の順番に計算する.パーツの組立順序はNNベースに決定し, それ以外はモデルベース(RRT, 摩擦制約下での最適化)に計算する 89 https://arxiv.org/pdf/2312.10571

Learning to Design 3D Printable Ad...")
for Robot Manipulation • Michelle Guo, Ziang Liu, Stephen Tian, Zhaoming Xie, Jiajun Wu, Karen Liu (Stanford University, Cornell University) ◦ ロボットが物体を扱いやすくなるように物体に付加する把持部位の形状とそれに応じた動作を強化 学習で生成している ◦ メッシュの頂点位置やプリミティブ形状の寸法を探索変数として,把持部位の形状とロボットの運動 を同時に決定するポリシーを PPOで学習している 90 https://object-adaptation.github.io/

STOPNet: Multiview-Based 6-DoF Suc...")
Production Lines • Yuxuan Kuang, Qin Han, Danshi Li, Qiyu Dai, Lian Ding, Dong Sun, Hanlin Zhao, He Wang (Peking University, New York University, Huawei Cloud Computing Technologies Co., Ltd.) ◦ コンベアで流れる透明な物体を吸着で把持する NNベースの吸着位置計画手法を提案している ◦ 2方向から撮影した時系列の RGB画像を入力として,3次元点群や法線方向を推定する NNを介し て吸着の候補位置を決定している 92 https://arxiv.org/pdf/2310.05717v1

RoboTAP: Tracking Arbitrary Points...")
Mel Vecerik, Carl Doersch, Yi Yang, Todor Bozhinov Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jonathan Scholz (Google DeepMind, University College London) ◦ ビジョンベースの模倣学習を少ない訓練データから行うためにカメラ画像の密な特徴点のトラッキングに基づく手法を 提案している ◦ 訓練データからトラッキング可能な全ての点を物体ごとにセグメンテーションし,タスクの各フェーズにおいて対象とな るセグメントに属する点のセットが目標位置に到達するようにビジュアルトラッキングをする 93 https://arxiv.org/abs/2308.15975

Qiaojun Yu, Junbo Wang, Wenhai Liu, Ce Hao, Liu Liu, Lin Shao, Weiming Wang, Cewu Lu (Shanghai Jiao Tong University, University of California, Berkeley, Hefei University of Technology, National University of Singapore) ◦ 可動関節をもつ物体 (引き出しや扉付きの家具等 )を汎用的にモデル化し動作計画するための NN ベースの手法を提案している ◦ 物体の点群からPointNet++によりセグメントや可動関節軸を抽出し, GraspNetにより生成された把 持候補位置から適切な把持位置を決定する 論文まとめ(52/87) 95 https://sites.google.com/view/gamma-articulation

• Yushi Liu, Alexander Qualmann, Zehao Yu, Miroslav Gabriel, Philipp Schillinger, Markus Spies, Ngo Anh Vien, Andreas Geiger (Robert Bosch GmbH, University of Tübingen) ◦ バラ積みピッキングにおいて,物体ごとに複数候補の 6DoFの把持位置を出力する NNベースの手 法を提案している ◦ pybullet上で収集したデータから 3D U-Netで候補領域を抽出し Convolution層で6DoF把持候補位 置を出力する 論文まとめ(53/87) 96 https://arxiv.org/abs/2405.06336

RGB-D Active Stereo Camera • Jun Shi, Yong A, Yixiang Jin, Dingzhe Li, Haoyu Niu, Zhezhu Jin, He Wang (Samsung R&D Institute Beijing, Beihang University, University of Chinese Academy of Sciences, Peking University) ◦ 透明な物体の6DoF把持位置をステレオ画像から NNベースに計画する手法を提案している ◦ ステレオ画像から3次元点群を復元する NNと把持候補位置を生成する NN(GSNet)を順番に適用し ている 論文まとめ(55/87) 98 https://arxiv.org/abs/2405.05648

Kai Lu, Jia-xing Zhong, Bo Yang, Bing Wang, Andrew Markham (University of Oxford, The Hong Kong Polytechnic University) ◦ 腕付きの四脚ロボットが蛇のように動く物体をハンドで掴む動作を学習する手法を提案 ◦ 物体の運動を予測するモデルを教師有り学習で学習し,それを利用してロボットの運動を決定する モデルをPPOで強化学習している 論文まとめ(56/87) 99 https://kl-research.github.io/dyncatch

Entong Su, Chengzhe Jia, Yuzhe Qin, Wenxuan Zhou, Annabella Macaluso, Binghao Huang, Xiaolong Wang (University of California San Diego, Carnegie Mellon University) ◦ マニピュレーション強化学習の sim2realにおいて指の表面に付けた触覚センサを利用 ◦ SAPIENというシミュレーションを用いて,触覚センサデータを RGB画像,Diff画像,Binary画像とし て表現してobservationに入れている 論文まとめ(59/87) 102 https://arxiv.org/abs/2403.12170

Zhang, Sisi Dai, Hui Huang, Ruizhen Hu, Xiaohong Chen, Kai Xu (National University of Defense Technology, Shenzhen University, Hunan University of Technology and Business) ◦ 強化学習により2台のロボットで連携して卓上の物体の並べ替えをする手法を提案している ◦ 問題をmultiple Traveling Salesmen Problemとして定式化しPPOを適用して解いている 論文まとめ(60/87) 103 https://arxiv.org/pdf/2403.08191

to Control Large 3D Deformation of Soft Linear Objects • Mélodie Daniel, Aly Magassouba, Miguel Aranda, Laurent Lequièvre, Juan Antonio Corrales Ramón, Roberto Iglesias Rodriguez, Youcef Mezouar (Université de bordeaux, University of Nottingham, Universidad de Zaragoza, CNRS - Institut Pascal - Université Clermont Auvergne, Universidade de Santiago de Compostela) ◦ 線状の柔軟物を指定形状に変形させるためのマニピュレーションを強化学習で行っている ◦ pybullet上で柔軟物を操作するデータを収集し,エンドエフェクタの並進速度と角速度をそれぞれ 異なるDDPGで制御するポリシーを学習して,実機で柔軟物操作を実現している 論文まとめ(61/87) 104 https://arxiv.org/abs/2312.04308

of Point Cloud Noise • Suhan Ling, Yian Wang, Ruihai Wu, Shiguang Wu, Yuzheng Zhuang, Tianyi Xu, Yu Li, Chang Liu, Hao Dong (Peking University, Umass Amherst, Chinese Academy of Sciences Beijing, China, Huawei Technologies Company) ◦ articulated objectのアフォーダンス認識 (引き出しのつまみ等の認識 )をロバスト化 ◦ まずロボットのhand-eyeカメラで離れた位置から全体のポイントクラウドを計測し, PointNet++を利 用したNNによりアフォーダンス領域を粗く認識し,次に handを認識された領域に近づけて再認識し てアフォーダンス点を決定する 論文まとめ(64/87) 107 https://arxiv.org/abs/2402.18699

Robot Manipulator • Ramkumar Natarajan, Hanlan Yang, Qintong Xie, Yash Oza, Manash Pratim Das, Fahad Islam, Muhammad Suhail Saleem, Howie Choset, Maxim Likhachev (Carnegie Mellon University, University of Oxford, Amazon) ◦ 飛んでくるボールをエンドエフェクタに付けられた板で遮るような動作計画を,オフラインの動作計 画で生成された動作ライブラリにより高速化する手法を提案している ◦ 離散化された位置に対して事前にロボットの軌道を計画しておき,ポイントクラウドからモデルベー スにオンラインで予測された物体到達位置にエンドエフェクタを移動させる 論文まとめ(65/87) 108 https://arxiv.org/pdf/2401.08022

Wasserstein Adversarial Imitation • Annan Tang, Takuma Hiraoka, Naoki Hiraoka, Fan Shi, Kento Kawaharazuka, Kunio Kojima, Kei Okada, Masayuki Inaba (The University of Tokyo, ETH Zürich) ◦ 人間の歩行データをリファレンスにした報酬により強化学習することでヒューマノイドの自然なスタイ ルの歩行動作をJAXONで実現している ◦ adversarial motion priorにおける分布の距離計算に Wasserstein-1 distanceを用いることで,高 次元空間においても学習を効率的に行っている 論文まとめ(66/87) 109 https://arxiv.org/abs/2309.14225

in Whole-Body Telelocomotion of a Wheeled Humanoid • Donghoon Baek, Yu-chen (johnny) Chang, Joao Ramos (University of Illinois at Urbana Champaign) ◦ 車輪付きの足をもつヒューマノイドをテレオペレーションするシステムを提案している ◦ 操縦者の体の傾きをロボット全体の目標速度に対応させ,ロボットが受けている外力を操縦者の体 幹に力覚提示している 論文まとめ(73/87) 116 https://arxiv.org/pdf/2209.03994

Wearable Haptics for a Marionette-...")
Robotic Systems • Davide Torielli et al. ◦ 人差し指と前腕に振動デバイスを取り付けて、従来の牽引型(論文では ”Marionette” type)遠隔 操作の引張力や手先の接触力をフィードバックする ◦ 12人の被験者による実験によって、作業時間、 NASA-TLX、アンケートによって評価。 ◦ 明確な優位性は得られていないが、指標によっては優位な傾向が見える場合もある 121 https://www.researchgate.net/publication/379670125\_Wearable\_ Haptics_for_a_Marionette-inspired_Teleoperation_of_Highly_Re dundant_Robotic_Systems

今後,我々としてはどうすればいいか?
131
")