自分の声を訓練する:SoftVC VITS 歌声変換フォーク

前回のシェアでは、TTS(テキストから音声)のbarkモデルについて紹介しましたが、その効果は素晴らしかったです。しかし、このモデルでは自分の声で訓練することはできません。そこで、今日は理想の自分の声を訓練し、その声を使って異なる言語を話したり歌ったりする方法をお伝えします。

使用するのは次のコードです:SoftVC VITS Singing Voice Conversion Fork。こちらのリンクからアクセスできます:https://github.com/voicepaw/so-vits-svc-fork

このモデルは、ある声を別の歌唱声に変換するためのニューラルネットワークです。引き続きColabを使用して訓練と音声生成を行います。

公式のcolab notebookのアドレスはこちらです:https://colab.research.google.com/github/34j/so-vits-svc-fork/blob/main/notebooks/so-vits-svc-fork-4.0.ipynb

このコードを自分のGoogle Driveにコピーして、ステップに従って実行することができます。ただし、訓練には非常に長い時間がかかります。待ちくたびれてしまうかもしれません。


幸いなことに、私はcolab pro+を購入しました。これにより、私がウェブページを閉じても、24時間以上バックグラウンドで動作し続けます(まるでこのサービスの広告をしているみたいに感じます……)。

しかし、トレーニングの成果を聞いたとき、そのすべての待ち時間が報われるでしょう。では、「I know everything」のトランプ兄さんと「Let me be clear」のオバマ兄さんの声を聞いてみましょう~

  • 郭德纲さんのオリジナル版と比べてみましょう:
  • 次に、トランプ版を聞いてみてください:
  • 最後に、オバマ版を聞いてみてください:

他のリソースも共有します。多くの人がトレーニングして、いくつかの音声モデルを完成させました。それらは直接使用可能です:

  • https://huggingface.co/QuickWick/Music-AI-Voices/tree/main
  • https://huggingface.co/search/full-text?q=so-vits-svc-4.0-models

トレーニングせずにただ使用するだけであれば、とても簡単です。ローカルでGUIを作成すればよいです。

python -m venv venv
source venv/bin/activate #仮想環境を作成
pip3 install -U so-vits-svc-fork #インストール
svcg #GUIを起動

GUIを起動した後、以前にインターネットからダウンロードしたモデルと設定ファイルを左側👈の「Model path」と「Config path」にアップロードし、変声したい音声ファイルを右側👉の「Input audio path」に配置します。生成ファイルの保存場所として「output audio path」を選択し、実行をクリックするだけです。