今日は論文を読みました。「Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots」です。スタンフォード大学、コロンビア大学、トヨタ研究所の共同研究です。
この論文では、Universal Manipulation Interface(UMI)と呼ばれるデータ収集および戦略学習フレームワークが提案されています。これは、In-The-Wildでの人間のデモから得られたスキルを直接展開可能なロボット戦略に転移するためのものです。UMIは、持ち運びやすく、低コストで情報量豊富なデータ収集を可能にする特別に設計されたインターフェースとハンドヘルドグリッパを採用しています。これにより、両手やダイナミックな操作デモにも対応可能です。また、UMIには展開可能な戦略の学習を促進するために、推論遅延に一致した相対的な軌道アクション表現を持つ特別に設計された戦略インターフェースが組み込まれています。その結果得られる学習戦略はハードウェアに依存せず、複数のロボットプラットフォームに展開可能です。これらの特性を備えたUMIフレームワークは、新しいロボット操作能力を解錠します。各タスクのトレーニングデータのみを変更することで、zero-shotでダイナミック、両手、精密、長距離の行動への汎化が可能です。包括的な現実世界の実験を通じて、UMIによって学習された戦略の多機能性と有効性を示しました。訓練を受けた人間のデモに基づいてUMIで学習された戦略は、新しい環境や物体に対してzero-shotで汎化できます。
例えば、待ち望んでいたロボットによる皿洗い:
皿洗いを成功させるためには、ロボットは7つの相互に依存する動作を順番に実行する必要があります。水栓を開く、皿を掴む、スポンジを取る、皿を洗ってトマトソースを取り除く、皿を置く、スポンジを置く、そして最後に水栓を閉じるという動作です。
ハードウェアデザイン
UMIのデータ収集ハードウェアは、GoProカメラが取り付けられたハンドヘルド式の平行グリッパを採用しています。戦略の展開に使用可能な観測データを収集するために、UMIは十分な視覚的コンテキストをキャプチャしてアクションを推論し、深度などの重要な情報を取得します。可展開な戦略に至るためのアクションデータを獲得するために、UMIは高速な人間の動き下で正確なロボットアクションをキャプチャし、グリップ幅を微調整し、それぞれのデモが特定のロボット運動学制約下で有効であるかを自動的にチェックします。
ユニークなリストカメラオンリー設定とカメラ中心のアクション表現により、UMIは100%キャリブレーションフリー(ベースが動いても動作可能)であり、障害物や激しい光条件の変化に抵抗できます。
UMI戦略インターフェースデザイン
異なる観測データストリームを物理的に測定された遅延で同期させます。
UMI戦略は、RGB画像、相対エンドエフェクタ(EE)姿勢、グリッパ幅の同期された一連の観測データを受け取り、一連の希望される相対エンドエフェクタ姿勢とグリッパ幅をアクションとして出力します。
ロボットの実行遅延を補正するために、アクションコマンドを事前に送信します。
In-the-wild 泛化実験
UMIを使用すれば、どの家庭やレストランに行っても、2分以内にデータ収集を開始できます。
多様なIn-the-wildカップ操作データセットを活用し、UMIは極端な分布外のオブジェクトや環境、さらにはウォーターフォンテン上でエスプレッソカップを提供するような状況にも汎化できる拡散戦略を訓練することが可能です。
狭域評価結果
すべての評価エピソードの初期状態が重ねられています。
各タスクにおいて、すべての方法は同じ初期状態のセットから始まります。これらの状態は参考画像を手動でマッチングして決定されます。
ベースライン/アブレーション戦略の典型的な失敗パターン。赤矢印は失敗行動を、緑矢印は期待される行動を示します。20個の評価エピソードにおける成功率は、各列の最良成績が太字で表示されます。