『2024年人工知能指数報告』- 2.7.1 UniAudio：LLMに基づく音声生成モデル

レポートにはいくつかのオーディオ生成モデル、UniAudio、MusicGen、MusicLMが言及されています。今日はこれらについて簡単に説明します。

UniAudio：大規模言語モデルを用いた包括的なオーディオ生成

UniAudioは、LLM（大規模言語モデル）に基づくオーディオ生成モデルで、マイクロソフト・アジア研究所といくつかの大学が共同で開発しました。このモデルは幅広いオーディオ生成タスクをサポートしており、音素、テキスト記述、またはオーディオ自体などのさまざまな入力条件に基づいて、スピーチ、サウンド、音楽、歌声を生成することができます。このモデルは10万時間の多様なオープンソースオーディオデータを使用して構築され、10億個のパラメータに拡張されています。また、効率と性能のために特別に設計されたオーディオのトークナイズ方法と言語モデルアーキテクチャも採用されています。

実現可能な機能としては以下があります：

ゼロショットのテキストから音声への変換（Zero-shot TTS）
有名人の声をクローンする（Cloning famous person’s voice）

日常的な音声をクローンする（Cloning the person’s voice from your daily life）

長い文章のテキストから音声への変換（Long sentence by TTS）
ゼロショット学習による音声変換（Zero-shot VC）

ゼロショット学習による歌声合成（Zero-shot Sing Voice Synthesis）
ゼロショット学習による音声強化（Zero-shot Speech Enhancement）

ゼロショット学習による目標話者抽出（Zero-shot Target Speaker Extraction）
ゼロショット学習によるテキストから音声への変換（Zero-shot Text-to-Sound）
20秒の音声生成（20s audio genenration）
命令形テキストから音声への変換（Instructed TTS）
音声編集（Audio Edit）

音声の残響除去（Speech Dereverberation）
音声編集（Speech Edit）
中国語テキストから音声へ（Chinese TTS）

音声はここで聞くことができます：https://dongchaoyang.top/UniAudio_demo/