昨日のシェアでは、スタンフォードAIレポートのオーディオセクションについて議論しました。このレポートが作成された際には、Stable Audio 2.0はまだリリースされていませんでした。最新のStable Audio 2.0は、4月3日に正式に公開されました。
Stable Audio概要
Stable Audio 1.0は2023年9月に発表され、潜在的拡散技術を用いて高品質な44.1kHz音楽を生成できる最初の商業利用可能なAI音楽生成ツールであり、『タイム』誌によって2023年のベストインベンションの一つに選ばれました。
Stable Audio 2.0は、1.0に基づいて開発されました。テキストからオーディオ、オーディオからオーディオの二重プロンプト機能により、ユーザーはメロディー、伴奏トラック、音軌道分離、サウンドエフェクトを作成でき、これによりクリエイティブなプロセスが向上します。他のトップモデルと比較しても、Stable Audio 2.0の特筆すべき点は、最大3分間のフルソングを生成できることで、導入部、展開部、終結部を持つ構造化された作曲やステレオ音響効果も可能です。新しいモデルはStable Audio公式サイトで無料提供されており、今後Stable Audio APIを通じても利用可能になります。
主な機能
完全な長さの音声トラック
Stable Audio 2.0 はトップクラスのモデルの中で際立っており、最大3分間のフルレングスの曲を生成でき、イントロダクション、展開、結論などの整然とした構造とステレオ音響効果が含まれます。
オーディオからオーディオへの生成
Stable Audio 2.0 は音声ファイルのアップロードをサポートしており、創造的なアイデアを完成品のサンプルに変換します。簡単に言えば、あなたがメロディーを口ずさめば🎶、AIがそれに基づいて対応する音楽を生成します🎵。(驚きませんか?)
サウンドの変化と効果の創出
このモデルは、キーボードのタイピング音から人群の歓声、あるいは都市の街路のざわめきに至るまで、音とオーディオ効果の生成能力を強化し、オーディオプロジェクトの向上に新たな方法を提供します。
スタイル変換
この新機能は、生成プロセス中に新たに生成されたオーディオやアップロードされたオーディオをシームレスに修正することができます。この機能により、ユーザーは特定のプロジェクトのスタイルやトーンに合わせて出力をカスタマイズすることが可能です。
研究手法
Stable Diffusion 3と類似の拡散トランスフォーマー(DiT)が以前のU-Netに代わって採用されました。これは、長序列データを処理する際により効率的だからです。これらの2つの要素の組み合わせにより、モデルは高品質な音楽作品にとって重要な大規模な構造を識別し、再現できるようになります。
技術的詳細
オートエンコーダーは音声を圧縮し、元の状態に復元します。これにより、重要な特徴を捉えながら、再現し、比較的重要な度合いの低い詳細をフィルタリングして、より一貫性のある生成を実現します。
拡散トランスフォーマー(DiT)は、ランダムノイズを段階的に構造化されたデータに洗練させていき、複雑なパターンや関係を認識します。オートエンコーダーと組み合わせることで、より長いシーケンスを処理でき、入力からより深い、より正確な解釈を作り出すことができます。