『2024年人工知能指数報告』- 2.7.3 AudioのMusicLM：テキスト記述から高精細な音楽を生成

報告で言及されている3番目のオーディオモデルは、Googleが公開したMusicLMです。

これは、「静かなヴァイオリンのメロディーに歪んだギターの即興演奏が重なる」といったテキスト記述から高忠実度の音楽を生成できるモデルです。MusicLMは条件付き音楽生成プロセスを階層的な系列対系列モデリングタスクとして定義し、24 kHzの高忠実度で数分間の連続的な音楽を生成できます。実験結果によると、MusicLMは音声品質とテキスト記述への準拠精度においてこれまでのシステムを超えています。さらに、MusicLMはテキストとメロディ両方の条件に基づいて音楽を生成でき、テキスト記述に基づいてホイッスルやハミングのメロディースタイルを変換することも可能です。Googleはまた、5,500個の音楽-テキストペアを含むMusicCapsデータセットを公開しており、このデータセットには人間の専門家による豊富なテキスト記述が付加されています。

行えることは以下があります：

：MusicLMは詳細なテキスト記述から音声を生成でき、これらの記述は単純なテキストに留まらず、複数の文脈や感情の層を含むことができます。

prompt: The main soundtrack of an arcade game. It is fast-paced and upbeat, with a catchy electric guitar riff. The music is repetitive and easy to remember, but with unexpected sounds, like cymbal crashes or drum rolls.

：モデルはテーマとスタイルを統一したまま、長時間の音楽作品を生成することができます。

：一連のテキストプロンプトを提供することで、MusicLMはそれに応じた音声を生成します。これらのプロンプトは、モデルが前の記述からどのように継承して意味トークンを生成するかに影響を与えます。

Text prompts
time to meditate (0:00-0:15)
time to wake up (0:15-0:30)
time to run (0:30-0:45)
time to give 100% (0:45-0:60)

：旋律埋め込みを条件に追加することで、MusicLMはテキストプロンプトに適合しつつ提供された旋律にも従った音楽を生成できます。

元音声

生成音頻

：モデルはさらに、絵画に関連する記述に基づいて音楽を条件生成し、使用シーンを広げることができます。

：ユーザーは異なる楽器、音楽スタイル、ミュージシャンの経験レベル、場所、歴史的時代、さらにはアコーディオンのソロまで指定して短い音声を生成できます。

：条件および/または意味トークンを固定したまま、生成サンプルの多様性をテストし、出力の豊かさと変化を確保しています。

さらに多くの🔊デモ🔊音声は以下で聞くことができます：https://google-research.github.io/seanet/musiclm/examples/