コミュニティからの反応は非常に良かった。昨日、MetaはSAM 2を発表した。これは画像とビデオに対応する統一モデルで、リアルタイムの物体セグメンテーションを行い、業界トップレベルのパフォーマンスを達成している。
Metaはコードとモデルの重みを共有し、緩やかなApache 2.0ライセンスを使用した。同時に、約51,000の実世界のビデオと60万以上の空間-時間マスク(masklets)を含むSA-Vデータセットも公開した。(本当にオープンソース!!)
SAM 2は、以前見たことがない物体や視覚領域でも、あらゆるビデオや画像から物体をセグメントできるため、カスタマイズなしでさまざまなシーンに適用可能だ。SAM 2には多くの潜在的な実用例があり、例えば、生成型ビデオモデルとSAM 2の出力を組み合わせることで新しいビデオエフェクトを作り出し、新たなクリエイティブなアプリケーションを解錠できる。また、SAM 2は視覚データのアノテーションツールを加速し、より良いコンピュータビジョンシステムを構築するのに役立つだろう。
ウェブページプレビュー
SAM 2のウェブ版デモでは、プレビュー機能が提供され、ユーザーがビデオ内で物体をセグメントして追跡し、効果を適用できる。https://sam2.metademolab.com/。私はサッカーボール⚽️と時計⌚️をトラックし、ビデオがフレームごとに進むにつれて、確かに効果は悪くない。GitHub上にも環境を自作するために使用可能なオープンソースモデルがある:https://github.com/facebookresearch/segment-anything-2。
技術フレームワーク
Segment Anything Model 2(SAM 2)は、画像とビデオにおけるプロンプト対応の視覚セグメンテーションを解決することを目指した基礎モデルである。私たちは画像を単一フレームのビデオとして扱うことで、SAMをビデオ処理に拡張した。モデルはシンプルなトランスフォーマー構造を持ち、リアルタイムのビデオ処理を実現するためにストリーミングメモリを備えている。
私たちはモデルループデータエンジンを構築し、ユーザインタラクションを通じてモデルとデータを改善し、私たちのSA-Vデータセット(下図参照)を集めた。これはこれまでで最大規模のオンラインビデオセグメンテーションデータセットである。このデータによって訓練されたSAM 2は、幅広いタスクや視覚領域で優れた性能を発揮する。
アーキテクチャの進化
SAMからSAM 2へのアーキテクチャの進化において、SAM 2のアーキテクチャには物体が可視かどうかを予測するための「遮断ヘッド」が追加された。これにより、物体が一時的に隠れてもセグメンテーションが可能になる。
試用シーン
SAM 2は、多様な実用シーンに直接適用できる。例えば、ビデオエフェクトを作成するために物体をトラッキングする(左図参照)、または科学的研究を支援するために顕微鏡撮影のビデオで移動する細胞をセグメントする(右図参照)などである。
将来、SAM 2はARグラスを通じて日常の物品を認識し、ユーザーに通知や指示を提供する、より大きなAIシステムの一部として機能する可能性がある。
比較
比較では、両方のモデルが最初のフレームでTシャツのマスクを初期化した。ベースラインモデルはSAMのマスクを使用した。一方で、SAM 2は全体のビデオを通して物体部分を正確にトラッキングでき、ベースラインモデルは過剰セグメンテーションとなり、Tシャツだけでなく人の頭部まで含んでしまった。
SAM 2(右図)は、画像内の物体セグメンテーション精度においてSAM(左図)よりも優れている。