『2024年人工知能指数報告』- 2.7.1 UniAudio:LLMに基づく音声生成モデル

レポートにはいくつかのオーディオ生成モデル、UniAudio、MusicGen、MusicLMが言及されています。今日はこれらについて簡単に説明します。

UniAudio:大規模言語モデルを用いた包括的なオーディオ生成

UniAudioは、LLM(大規模言語モデル)に基づくオーディオ生成モデルで、マイクロソフト・アジア研究所といくつかの大学が共同で開発しました。このモデルは幅広いオーディオ生成タスクをサポートしており、音素、テキスト記述、またはオーディオ自体などのさまざまな入力条件に基づいて、スピーチ、サウンド、音楽、歌声を生成することができます。このモデルは10万時間の多様なオープンソースオーディオデータを使用して構築され、10億個のパラメータに拡張されています。また、効率と性能のために特別に設計されたオーディオのトークナイズ方法と言語モデルアーキテクチャも採用されています。

実現可能な機能としては以下があります:

  • ゼロショットのテキストから音声への変換(Zero-shot TTS)
  • 有名人の声をクローンする(Cloning famous person’s voice)
  • 日常的な音声をクローンする(Cloning the person’s voice from your daily life)
  • 長い文章のテキストから音声への変換(Long sentence by TTS)
  • ゼロショット学習による音声変換(Zero-shot VC)
  • ゼロショット学習による歌声合成(Zero-shot Sing Voice Synthesis)
  • ゼロショット学習による音声強化(Zero-shot Speech Enhancement)
  • ゼロショット学習による目標話者抽出(Zero-shot Target Speaker Extraction)
  • ゼロショット学習によるテキストから音声への変換(Zero-shot Text-to-Sound)
  • 20秒の音声生成(20s audio genenration)
  • 命令形テキストから音声への変換(Instructed TTS)
  • 音声編集(Audio Edit)
  • 音声の残響除去(Speech Dereverberation)
  • 音声編集(Speech Edit)
  • 中国語テキストから音声へ(Chinese TTS)

    音声はここで聞くことができます:https://dongchaoyang.top/UniAudio_demo/