Stable Audio 2.0 音声生成 - メロディを口ずさむだけでAIが音楽を生成

昨日のシェアでは、スタンフォードAIレポートのオーディオセクションについて議論しました。このレポートが作成された際には、Stable Audio 2.0はまだリリースされていませんでした。最新のStable Audio 2.0は、4月3日に正式に公開されました。

Stable Audio概要

Stable Audio 1.0は2023年9月に発表され、潜在的拡散技術を用いて高品質な44.1kHz音楽を生成できる最初の商業利用可能なAI音楽生成ツールであり、『タイム』誌によって2023年のベストインベンションの一つに選ばれました。

Stable Audio 2.0は、1.0に基づいて開発されました。テキストからオーディオ、オーディオからオーディオの二重プロンプト機能により、ユーザーはメロディー、伴奏トラック、音軌道分離、サウンドエフェクトを作成でき、これによりクリエイティブなプロセスが向上します。他のトップモデルと比較しても、Stable Audio 2.0の特筆すべき点は、最大3分間のフルソングを生成できることで、導入部、展開部、終結部を持つ構造化された作曲やステレオ音響効果も可能です。新しいモデルはStable Audio公式サイトで無料提供されており、今後Stable Audio APIを通じても利用可能になります。

主な機能

完全な長さの音声トラック

Stable Audio 2.0 はトップクラスのモデルの中で際立っており、最大3分間のフルレングスの曲を生成でき、イントロダクション、展開、結論などの整然とした構造とステレオ音響効果が含まれます。

オーディオからオーディオへの生成

Stable Audio 2.0 は音声ファイルのアップロードをサポートしており、創造的なアイデアを完成品のサンプルに変換します。簡単に言えば、あなたがメロディーを口ずさめば🎶、AIがそれに基づいて対応する音楽を生成します🎵。（驚きませんか？）

サウンドの変化と効果の創出

このモデルは、キーボードのタイピング音から人群の歓声、あるいは都市の街路のざわめきに至るまで、音とオーディオ効果の生成能力を強化し、オーディオプロジェクトの向上に新たな方法を提供します。

スタイル変換

この新機能は、生成プロセス中に新たに生成されたオーディオやアップロードされたオーディオをシームレスに修正することができます。この機能により、ユーザーは特定のプロジェクトのスタイルやトーンに合わせて出力をカスタマイズすることが可能です。

研究手法

Stable Diffusion 3と類似の拡散トランスフォーマー（DiT）が以前のU-Netに代わって採用されました。これは、長序列データを処理する際により効率的だからです。これらの2つの要素の組み合わせにより、モデルは高品質な音楽作品にとって重要な大規模な構造を識別し、再現できるようになります。

技術的詳細

オートエンコーダーは音声を圧縮し、元の状態に復元します。これにより、重要な特徴を捉えながら、再現し、比較的重要な度合いの低い詳細をフィルタリングして、より一貫性のある生成を実現します。

拡散トランスフォーマー（DiT）は、ランダムノイズを段階的に構造化されたデータに洗練させていき、複雑なパターンや関係を認識します。オートエンコーダーと組み合わせることで、より長いシーケンスを処理でき、入力からより深い、より正確な解釈を作り出すことができます。