レポートにはいくつかのオーディオ生成モデル、UniAudio、MusicGen、MusicLMが言及されています。今日はこれらについて簡単に説明します。
UniAudio:大規模言語モデルを用いた包括的なオーディオ生成
UniAudioは、LLM(大規模言語モデル)に基づくオーディオ生成モデルで、マイクロソフト・アジア研究所といくつかの大学が共同で開発しました。このモデルは幅広いオーディオ生成タスクをサポートしており、音素、テキスト記述、またはオーディオ自体などのさまざまな入力条件に基づいて、スピーチ、サウンド、音楽、歌声を生成することができます。このモデルは10万時間の多様なオープンソースオーディオデータを使用して構築され、10億個のパラメータに拡張されています。また、効率と性能のために特別に設計されたオーディオのトークナイズ方法と言語モデルアーキテクチャも採用されています。
実現可能な機能としては以下があります:
ゼロショットのテキストから音声への変換(Zero-shot TTS) 有名人の声をクローンする(Cloning famous person’s voice)
日常的な音声をクローンする(Cloning the person’s voice from your daily life)
長い文章のテキストから音声への変換(Long sentence by TTS) ゼロショット学習による音声変換(Zero-shot VC)
ゼロショット学習による歌声合成(Zero-shot Sing Voice Synthesis) ゼロショット学習による音声強化(Zero-shot Speech Enhancement)
ゼロショット学習による目標話者抽出(Zero-shot Target Speaker Extraction) ゼロショット学習によるテキストから音声への変換(Zero-shot Text-to-Sound) 20秒の音声生成(20s audio genenration) 命令形テキストから音声への変換(Instructed TTS) 音声編集(Audio Edit)
音声の残響除去(Speech Dereverberation) 音声編集(Speech Edit) 中国語テキストから音声へ(Chinese TTS)
音声はここで聞くことができます:https://dongchaoyang.top/UniAudio_demo/