アドビのFaceLift - 単一画像3Dヘッド再構築ツール

2025-01-10ルネー創業犬

FaceLiftは、Adobeが最近発表した革新的な単一画像3D頭部再構築ツールで、高品質な360度全方位の頭部視点生成（NVS）を実現するために、高精細なガウス頭部表現を生成します。https://arxiv.org/pdf/2412.17812

成果の展示：

1. 単一画像から3D頭部再構築：


	‍

：FaceLiftは、単一の人顔画像から詳細な3D再構築を実現します。
：生成プロセスにおいて、入力画像のアイデンティティ特徴（identity features）を正確に保持し、生成された3D頭部が元の画像と一致することを確保します。

2. ビデオ入力の4D新視点合成：

：ビデオ入力に対して、FaceLiftは各フレームを個別に処理し、連続的な3Dガウス表現シーケンスを生成します。
：生成された3D表現シーケンスを組み合わせることで、動的な4D新視点合成をサポートし、ビデオ中の頭部の多視点ダイナミック効果を提示します。

3. 2D顔アニメーションとの統合：

：FaceLiftは、LivePortraitなどの2Dアニメーション手法と組み合わせて使用できます。
：2D顔アニメーションを3D表現にマッピングすることで、完全な3D顔アニメーション効果を実現し、アニメーション制作や仮想キャラクター生成の可能性を広げます。

アドバンテージ：

：アイデンティティの保持と視点の一貫性において優れた性能を発揮します。
：合成データでのみ訓練されているにもかかわらず、実世界の画像にも良好に対応できます。
：既存の3D頭部再構築方法を超えて、微細な顔や髪型のディテール捕捉を向上させます。

適用シーン：

：ゲームや仮想キャラクターの精密なアバター生成に使用されます。
：動的ビデオの新視点生成やアニメーション再現に拡張されます。
：仮想試着やパーソナライズされたデジタルキャラクター制作などに利用可能です。

メソッド概要：

FaceLiftの手法には以下のいくつかの重要なステップが含まれます：

1. 多視点拡散モデル生成（Multi-view Diffusion Model Generation）：

：単一の人顔画像。
：画像条件に基づく多視点拡散モデル（image-conditioned, multi-view diffusion model）を構築します。
：人頭全体をカバーする新しい視点画像を生成し、顔の側面や後頭部も含めます。
：高品質な合成データを利用し、事前学習済みモデルの重みを組み合わせることで、モデルが未見の頭部視点を高忠実度かつ多視点の一貫性で「推測」できるようにします。

2. ガウススプラット再構築（GS-LRM Reconstruction）：

：多視点画像および対応するカメラ姿勢（camera poses）。
：人頭を表す3Dガウススプラット（3D Gaussian splats）を生成します。
：頭部構造を正確に記述するために、完全な3Dガウス表現を構築します。

3. 新視点合成（Novel View Synthesis）：

：生成された3Dガウス表現に基づき、頭部全体の高品質な新視点合成を実現します。
：生成された視点は、アイデンティティの保持、ディテールの捕捉、視点の一貫性において優れています。

主要な革新点：

：潜在拡散法を使用して、単一の人顔画像を条件として、頭部全体の多視点画像を生成します。
：ガウススプラット方式で頭部3D構造を記述し、視点合成の柔軟性と精度を向上させます。
効率的な訓練戦略：

合成データを用いて多視点生成モデルを訓練し、モデルの生成能力を強化します。
Objaverseデータセット上でGS-LRMを事前学習し、その後合成データで微調整することで、3D表現の質をさらに向上させます。