NEUTRINOについて
NEUTRINOはSTUDIO NEUTRINOのSHACHIさんが製作したニューラルネットワークを用いた歌声合成エンジンのことです。
ニューラルネットワークとは、神経細胞が信号を伝達する様子を参考にしたアルゴリズムのことで、ディープラーニングに使用されます。
NEUTRINOのアルゴリズムの詳細は調べてないですが、使用目的を考えると、人間らしく聴こえるような(或いはライブラリ毎の人格に合うような、曲調に合うような?)特徴量を抽出するディープラーニングを行っているということだと思います。
また、NEUTRINOの歌声合成にはWORLDと呼ばれるシステムが利用されており、これは明治大学の専任准教授の森勢将雅先生が開発したものだそうです[1]。
2020年の2月からフリーウェアとして発表され、当初は音声ライブラリとして利用できるのが東北きりたん、謡子の2種類だけでしたが、2022年11月現在は11種類の音声ライブラリが利用できるようになっており、さらに今後も増える予定のようです。
VOCALOIDとの違いについて
VOCALOIDの場合は、一般的にはCubaseやLogic ProのようなDAWでプラグインとしてVOCALOIDを呼び出し、プラグインからライブラリを選択してメロディの打ち込み、歌詞の入力を行うことで歌声の再生や書き出しができますが、抑揚等の調整を行わないと正に機械音声というような感情の無い音声になってしまう為、手動での調整が必要になります。
DAWで呼び出さなくても使用できるスタンドアローン製品もあり、製品単体で打ち込み、歌詞入力をしてWAVファイルとして書き出すことが出来るようですが、楽曲作成の場合は使う機会が無いので私は使ったことがありません。
NEUTRINOの場合は、まずメロディや歌詞、テンポ等の情報が入力された、楽譜表記用のファイル形式であるMusicXMLファイルを作成します。
と言っても、エディタでXMLファイルを作成するわけではなく、Cubase(但しCubase Proのみ)やLogic ProでMIDIデータに歌詞を入力した後、MusicXML形式で書き出すことで簡単に作成できます。
Muse Scoreという楽譜作成フリーウェア等でもMusicXMLを書き出せるようです[2]。
MusicXMLを作成したら、設定ファイルに使用したいライブラリ名や、MusicXMLのファイル名を入力し、Macの場合はターミナル、Windowsの場合はコマンドプロンプトからバッチファイルを実行することで、ディープラーニングによって抑揚等が調整済みの歌声合成されたWAVファイルが作成されます。
楽曲を作る場合はDAWにそのWAVファイルを読み込み、エフェクトをかけたりして手動で加工、調整することになります。
VOCALOIDとの比較
トップの動画がNEUTRINOによるライブラリずんだもんを使用した曲で、以下の動画がVOCALOIDによるライブラリ東北ずん子を使用した曲です。
比較するなら同じライブラリ使えよって話ですが、ずんだもんで作りたかったので、つい。
更に、NEUTRINOのずんだもんの方は後からVocoderとかで結構加工してるのでちょっと分かりづらいですね。
それでも抑揚とかはNEUTRINOの方が結構わかりやすく出てるように思います。
NEUTRINOを使ってみて
手動でやることが設定ファイルをちょっと書き換えるぐらいなのでめちゃくちゃ楽です。
自動車の運転みたいなもんで、内部で何やってるか分からなくても誰でも運転できる、みたいな技術の民主化というか大衆化というか、本当にありがたいですね。
メロディや歌詞の入力はVOCALOIDでもNEUTRINOでも必要ですが、調整にかかる時間がまるまるカットでき、尚且つクオリティが高い。
細かい気になる箇所を修正できないという点はありますが、それほど大きく気になるようなことも無いですし、手動でやっても気になる箇所が完全に調整できるとも限らないので、相当VOCALOIDの調整が上手くならないと差別化するのも難しいぐらいNEUTRINOが優れていると思いました。
そして、こんな素晴らしいものが無料で利用できるという。
ちょっと面倒だったのが、楽曲自体はCubase Artistで作っていたのですが、Cubase ArtistではMusicXMLの書き出しが出来なかったので、わざわざMIDIをエクスポートしてLogic Proで読み込んで、そっちでMusicXMLを作成する必要があったことですね。
MusicXMLの為にCubase Proを買うのも勿体無いので今後NEUTRINOを使う際にはこの手順で作ろうと思います。
また、Cubaseの場合はMIDIファイルに歌詞を入力する際に吐息を表現する為のブレス記号であるコンマ(,)を入力できないという問題点があり、MusicXMLに直接入力することで対策は出来るわけですが[3]、そこまでするならLogic Pro持ってるのでそっちで作った方が良い気がしました。
あと、せっかくホラーな曲でNEUTRINO使ったのに吐息を入れなかったのは反省点ですね。
ずんだもんの声質はコミカルでポップですが、やっぱりホラーな曲なので吐息のような緊張感を増す要素はあった方が面白いし、何よりどんな感じに音声が生成されるのかテストにもなるし。
次回に使うときはちゃんと吐息も入れようと思います。
参考
[1] AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること
[2] MacOS版AIきりたんの使い方