2023-09-03

VoiSona Talkで田中傘に朗読してもらった

調声 DTM 音楽

また少しご無沙汰でした。

先日のMYK-IVの詳細をまだまとめていないままですが、体験版の出た「VoiSona Talk」を試した話を先に。

「VoiSona Talk」は、AI技術でリアルな喋り声を再現する音声合成ソフトで、「VoiSona」のテクノスピーチさんが開発中です。

体験版の詳細はこちら。

News detail | VoiSona

Mac版、Windows版があります。本体は無料で、ボイスライブラリとして女性の声の「田中傘」が付属していますので、すぐにお試しできます。これは嬉しい。

起動直後の画面

左上の顔のアイコンをクリックして2.0.0を選ぶことで、ボイスライブラリがダウンロードできます。

トラックの「文」エリアをクリックして、文章を流し込みます。

VoiSonaと違うところは、漢字かな混じりのままで、ほぼ大丈夫なところ。これは日本語ならではのことなのかな。

試しに朗読っぽく、梶井基次郎の「桜の樹の下には」の1パラグラフを流し込んでみました。

すぐさま、画面上部で波形変換が実行される様子が表示されます。

トラックごとの再生は、トラックの左端の▶️、または画面下部のエディタ部分の▶️でもOK。

今回は主に、文章の漢字かな変換、イントネーションの調整、微妙なピッチの調整をしてみました。

まず赤文字のところ。原文は「二三日」のところ、発音が「にじゅうさんにち」になってしまうので、平仮名で「にさんにち」としました。

青文字のところは、ピッチの調整をした部分です。

ピッチの調整は、下部エディタ部分の「PIT」ボタンを押して、VoiSona同様にマウスのドラッグでできます。操作は簡単ですが、自然な発声にするのが素人には難しかったです。

続いてイントネーションの調整。

「ACC」ボタンをクリックすると、オレンジの丸印状態になるのですが、イントネーションには「上」か「下」か、しかないようなのです。普段の発声でもそうでしたっけ？

1つを上に持ち上げると、相対的に隣の丸が逆方向に上下します。

これで標準語っぽいイントネーションにしてみました。

再生しながら調整を繰り返します。

再生位置は、ちょっと分かりにくいですが、エディタの文章が表示されているところの下、秒数目盛りのある細いエリアをクリックすることで動かせます。

トラックの表示位置は横スクロールで移動できます。

トラックはwaveファイルで出力できます。書き出したいトラックの右端の「有効」チェックボックスにチェックを入れます。

ファイルメニュー >> エクスポート >> WAVファイルをエクスポート…を選択。

ダイアログが表示されますので、エクスポート…ボタンを押します。

出力するディレクトリしか選べないようで、ファイル名は自動的に「Talk99.wav」といった名前になりました。

調整後

自分なりには、だいたい良いと思うのですが、一箇所「やっとわかるときが来た。」の「来た」の発音がなんか機械っぽさが残っていて、直すことができませんでした。

これはいじっていない状態。文章を流し込むだけで、この仕上がり、すごいです。

ちなみに、ひらがなだけで入力すると、イントネーションがちょっと違うなぁ、という感じのところもあるんですが、漢字かな混じりだと、そこそこ標準語っぽくなります。

ピッチの曲線を表示すると、揺れ方が美しく、AIすごいなぁって思います。

ここまで素人が触って、この記事を書き終わって、ちょうど2時間です。恐るべし。

と、今回はそんなところで。

2023-08-13

今度はVoiSona MYK-IV

GarageBand DTM 調声音楽

少しご無沙汰でした。

あれから、マイキくんの声をAI学習したボイスライブラリ「MYK-IV」がテクノスピーチさんからリリースされました。

AI歌唱ソフト「VoiSona」新規ボイスライブラリ、「MYK-IV（CV：マイキ）」発売！

使用ライセンスは1ヶ月または1年ごとのサブスクリプションで、初月無料のキャンペーンがあったので申込んでみました。

試用期限が8/17なのですが、なかなか腰を据えて取りかかれなかったことや、編集ソフト VoiSona に慣れるまでに少し時間がかかってしまったこともあり、駆け込みで本日8/13から調声に取り掛かりました。

前回までと大きく違うのは、PCの環境が10倍ぐらい速くなったこと。今までは10年選手の MacBook Air mid2013 でしたが、先月 2022/M2のMacBook Air（8コアGPU、24GBRAM）に買い替えています。

非力なPCだと音飛びなどの原因になるので、ここはすごく安心感もあり、何より出力時間が格段に短くなりました。

とりあえず、前回まででミクさんに歌ってもらったのと同じ広瀬香美さんの「ロマンスの神様」を歌ってもらうところまでを目標にしました。

歌詞の割り当てまで終わったものを貼りますね。これも素人には結構大変な作業だったりします。

一点、VoiSonaの場合、英語の歌詞を英語のまま入力できて、ちゃんと発音してくれた点がラクでした。

よかったら聴いてみていただけると嬉しいです。サビのところに英語入ります。

歌詞を割り当てただけでも、ちゃんとマイキくんボイスでカッコよく歌ってくれていますよね。

8/17までに細かい調声まで踏み込めるか・・・時間的にちょっと難しいかもしれません。

とにかく、今まで試した2つ（YAMAHAさんのVOVALOID6 Editorや、クリプトンさんピアプロ）と毛色がまた違い、操作方法を勉強中です。

ちなみに、しゃくりとか、ビブラート、息継ぎなどは、アプリが自動的にやってくれています。歌詞の割り当て以外は何もいじっていません。

ミクさんのときにあんなに苦労したのは何だったんだろうw

これは2ヶ月ぐらい前に、別のシステムでミクさんに歌ってもらったもの。

以上、ざざっと走り書きですみません。

続きはまた。

2023-05-26

「調声」初音ミクV4XとPiaPro Studio（クリプトン）(6)「ロマンスの神様」

DTM 調声音楽 GarageBand

ミクさんと PiaPro Studio の試用期限が今日までであることがわかりました。

「あかとんぼ」とか「歌の翼」のような穏やかな曲ではなく、アップテンポのJPOPで何かもう1曲ミクさんに歌って欲しかったのですが、間に合いそうでしたのでMIDI音源を探してみました。

いったいいつの歌やねん？って曲がなんとか見つかりました。広瀬香美さんの「ロマンスの神様」です。

素人調声の結果
- まずは・・・
作業内容
最後に

素人調声の結果

まずは・・・

まずは、ごにょごにょやってみた結果です。

気に入っているサビのところから。（前半は壊れましたw）

調声後Ver3

かわいいでしょ〜

歌詞は賛否両論ある曲ですが、ミクさんにけっこう合っているんじゃないかと思いました。（神様の「か」の発音が「こ」になってしまうバグは最後まで取れませんでした💦）

作業内容

全体的に

少しだけ「息成分を多くした」
かなり「明るくした」
少しだけ「大人っぽくした」

いじったパラメータはこの3つ。

ただ、最後に調声結果を貼りますが、このパラメータはいじらないほうがよかったのではないかな？と思いました。私には敷居が高すぎました。

ま、失敗作ということで。

もしかすると、波形がどう変化するかを理解しないと、いじればいじるだけヤバくなる、という画像処理と似た作業なのではないでしょうか？

細かな調整

「あかとんぼ」や「歌の翼」と同様、「ビブラート」や「しゃくり」は入れたのですが、「息継ぎ」はいれませんでした。

その代わり、上から下へのしゃくり（っていうのかな？）や、語尾をピっと跳ね上げたり、というのを試してみました。（これやってみたかったw）

上で貼ったサビの音声のとおり、すっごく可愛くなりました。半音上から下げると、ちょっと人間っぽくなるんですね。

歯切れ、リズム

あとは、ご本家、広瀬香美さんの歌を聴きながら、歯切れとかリズム感とか少しでも近づけるように「努力」してみました。

語頭をはっきりさせるためにアクセントをつけてみたり、ノーツを短めに切ってみたり。

無声の特殊記号

メーカーのサイトより

単音子音や特殊記号の歌詞入力について ( Piapro Studio NT ) | Piapro Studio Official Website

もうひとつ、「しゃくり」の方法として「Asp」という特殊記号が使えることがわかりました。声は鳴らないのですが、音程が次の音に影響します。

最後に

ミクさん＆ PiaPro Studio については、ここまでで本当のほんとに一区切りとなります。

いつかまたミクさんの声を触ることがあるかどうか分かりませんが、とても楽しい経験になりました。もっとこうしたかったというのを挙げればキリがありませんが、今の知識でできた結果としては「サビの部分は」まぁまぁ満足しています。

じつは何度もいじっているうちに、低音の多い前半は、いじならないほうがよかったんじゃないか的壊滅状態になってしまいました。この記事じたいを公開するのをやめようかと思ったぐらいです。

ただ、サビを高音で歌うミクさんがいたく気に入ってしまって、これだけは聴いてほしいなぁってことでアップすることにしました。

前回も書きましたが、歌自体をもっと練習する、発声の勉強する、などすればより自由に調声作業ができると思います。今回も、広瀬香美さんの歌声を何度も聴きながら作業しました。人間の歌声をこれだけ一生懸命聴いたのは初めてかもしれません。

あとは繰り返しになりますが、パラメータをいじった時に何が変化するかを理解するのも大事かな、と。

感じたことなんですが、世の中の調声師さんが調声されたボカロの声って、なぜこんなふうになるのか？という謎が解けてきました。人間に近づけようとするとすればするほど、どうしても不自然になる部分があるんですね。

ボカロの声ってやっぱりボカロっぽいほうが自然なのかな？ある意味これが完成形なのかな？って新たな謎がw　敢えてメーカーが、ミクさんの声にしてもいくつものプリセットを用意している所以なのかな？なんて。

では最後に、調声前と調声後の作品を1番通しで貼りますね。

調声前、十分かわいい

調声後。前半がヒドイ、こんなハズじゃなかった。でもやっぱりサビは可愛い。

そしてご本家です。

とってもハリのある弾んだ歌声が素敵ですよね。上手な方ならこんな風にミクさんに歌ってもらえるのかな。

ここまでお読みいただきありがとうございました。

いろいろ試験的な

あれこれを置く場所