Sunoはどこまで日本語を理解できているのか?  

Sunoは日本語の歌詞を理解できているのか?

結論、Sunoは歌詞の内容をよく理解できています。書かれている歌詞からただ曲を作って歌っているのではなく、その歌詞がどんな雰囲気でどんな人が歌っていてどんな意味なのかを想像・理解して音楽を生成していると思われます。

その理由として、Sunoでよく音楽を生成している人は気づいているかと思いますが、男性の声、女性の声をプロンプトで指定していないのにも関わらず、どちらかのボーカルばっかりが生成されることがあります。私も検証をするときになるべくブレないように歌詞を固定しているのですが女性のボーカルばっかりが生成されます。そこでこれを利用してちょっとした検証をしてみました。

[PR]

ボーカルを男性にするか女性にするかどこで決めている?

これはおそらく優先順位があって、まず「第一人称の呼び方」、次に「歌詞の内容」から判断していると思います。その検証をしてみました。

検証の条件は下記の通りです。
・Sunoはv4を使用
・カスタムモードでStyle of Musicには「J-pop」のみを書く(J-popは男女比が同じくらいと想定)
・歌詞を固定して10回連続で生成し、男性ボーカルか女性ボーカルが生成された数をカウント。
・歌詞はいつも検証で使っている「夜空に願いを」というものを使用し(女性の雰囲気が強め)、
 検証の内容に応じて少しだけ変化させる

まず、使用している歌詞はこんな感じです。雰囲気をわかってもらうためにあえて全部載せてます(面倒な人は飛ばしてOK)

タイトル「夜空に願いを」

[Intro]
静かに夜が訪れる
星が瞬き、心を寄せて

[Verse 1]
夢の中で君に会う
あの日の笑顔が、まだ胸に
月明かりが照らす道
二人の影を追いかけている

[Chorus]
夜空に願いを込めて
君とまた巡り会えるように
運命の糸を辿りながら
心の声を響かせて

[Verse 2]
忘れられないその声
風に乗って、耳元に届く
思い出の中で生きてる
君と過ごした日々は色褪せない

[Chorus]
夜空に願いを込めて
君とまた巡り会えるように
運命の糸を辿りながら
心の声を響かせて

[Bridge]
切なさが夜を包み
明日が来るのを待っている
どんなに遠く離れても
愛は消えない、ずっと胸に

[Chorus]
夜空に願いを込めて
君とまた巡り会えるように
運命の糸を辿りながら
心の声を響かせて

[Outro]
静かに夜が明けていく
君のことを思い出しながら

この歌詞で試しに生成すると、10回中10回の確率、つまり100%女性ボーカルになりました。明確な偏りがあることから、Sunoは何かしらの理由でこの曲は「女性ボーカルが適切」と判断していると思われます。特にJ-popという男性も女性も同じくらい歌い手がいるジャンルであるにも関わらずこの偏りがでるということは、歌詞から男性・女性を判断していると想定されます。

また、この歌詞は男性・女性を表す第一人称を含んでいません。ただ、使っているワードや言い回しの所々に女性っぽさがあり、これを読み取っているのだと思います。この雰囲気を読み取れるのですから日本語に対する解像度はかなり高いのではないかと思います。

歌詞に「俺」「私」など男女がわかる第一人称を含んでいたら?

結論、「俺」を使ったら100%で男性ボーカル、「私」を使ったら100%女性ボーカルになりました。上述のとおり、この歌詞には第一人称を含んでいないのでChat GPTに歌詞を改変して第一人称を入れてもらいました。具体的にはこんな感じです。

タイトル「夜空に願いを(男性ver)」

[Intro]
静かに夜が訪れる
星が瞬き、想いを馳せて

[Verse 1]
夢の中で俺は君を抱く
あの日の笑顔が、まだ胸に
月明かりが照らす道
はひとり、君を探している

[Chorus]
夜空に願いを込めて
もう一度、が守れるように
運命の糸を手繰り寄せ
の想いを届けたい

[Verse 2]
忘れられない君の声
風に乗って、今も響く
思い出の中で生き続ける
の心に、君は消えない

[Chorus]
夜空に願いを込めて
もう一度、が守れるように
運命の糸を手繰り寄せ
の想いを届けたい

[Bridge]
切なさが夜を包み
明日が来るのを待っている
どんなに遠く離れても
の愛は、ずっと変わらない

[Chorus]
夜空に願いを込めて
もう一度、が守れるように
運命の糸を手繰り寄せ
の想いを届けたい

[Outro]
静かに夜が明けていく
君を想い続けながら

「雰囲気や言い回しはほぼ同じにして「俺」という第一人称をいれて」、と命令してつくらせたので雰囲気や言い回しは女性っぽさは残しつつ、「俺」がだいぶ前に出てきています。これで男性ボーカルで100%生成されたということは、Sunoのボーカル性別の判定の優先順位は

 「第一人称 > 曲の雰囲気」

となっていると思われます。また英語の第一人称は「I」しかないですが、日本語には男性と女性を表す第一人称があることも知っていますし、「俺」という第一人称は一般的に男性を表す、ということも理解していることがこれからもわかります。

第一人称を「私」にしたときの検証は、「俺」の部分のみを「私」に置き換えていますが、これも100%女性ボーカルになりました。「私」は男性にも女性にも使われますが、女性のほうに使われることが多いということを理解している可能性も高そうです。この後の検証も基本的に第一人称のみを変えて検証しています。

中性的な第一人称「当方」だと男女両方が半々ででたりする?

結論、女性ボーカルが100%となりました。男性と女性で両方でてくるかも?と思いましたが、女性ボーカルのみとなりました。

この検証も先ほどの歌詞の「俺」を「当方」に置き換えただけです。こうなった要因として考えられるのは、
・「当方」という言葉を知らないので歌詞の雰囲気から女性と判断した
・「当方」という言葉を知っているが男女どちらともとれるので雰囲気から女性と判断した
の2つかなと考えています。どちらにしろ中性的な第一人称の場合は曲の雰囲気を優先したのだと思われます。

[PR]

第一人称が「俺」でプロンプトで「female voice」と指定したら?

これは女性ボーカルが100%となりました。つまりここでわかることは「Sunoは歌詞よりもプロンプトを優先させている」ということになります。

これはなんとなくはわかっていましたが、結構重要なことだと思います。例えばLyricsの中に「piano solo」といれるとピアノソロを入れたりしてくれますが、それをはじいてしまうようなプロンプト(例えばピアノを使わない音楽ジャンルを指定しているなど)が入っていたらおそらくかなりの確率でピアノソロは無視されてしまうので、何度繰り返し生成しても無駄になってしまう可能性が高くなるからです。

第一人称がネットスラングの「ワイ」の場合はどうなるか?

結果、女性ボーカルが100%になりました。さすがにここまで日本語の造形は深くないようです。

念のため解説しますと、「ワイ」はネットスラングみたいなもので基本的に男性の第一人称になります。たとえこのことを知らない人でも、日本人が聞いたら男性の第一人称だろうと想像がつきます。そこであえてこの極東の一国だけがつかっている言語のネットスラングを使ってみることで、どこまでSunoが日本語を知っているかを試してみたところ、さすがにここまでは知らなかったようです(ちなみにChat GPTは知っていた)。おそらく「ワイさん」という名前の人がいて、曲の雰囲気からこの「ワイさんは女性だ」と判断したのかなと想定しています。

これらのことからSunoはある程度の日本語は理解できているが、日本人と同等レベルまでにはなっていない、ということだと思います。

まとめ

今回はSunoがどこまで日本語を理解しているかを検証しつつ、男女のボーカルを判断する優先順位や歌詞とプロンプトのどちらを優先しているか、も併せて検証しました。結果として、

・Sunoは日本語の造形はかなり深いが日本人同等までにはなっていない
・歌詞の中に性別を表す第一人称が入っていればボーカルの性別はそちらを優先する
性別を表す第一人称が無かったら歌詞の雰囲気からボーカルの性別を判断する
・Lyricsの中にある指示よりプロンプトを優先する

となっています。なんとなくはわかっていた人が大半だと思いますが、検証してみることは重要だと思いますので、今後もこんなお遊び的な検証も進めてみたいと思います。

またこの効果を利用していろいろと検証していますので参考にしてください。
関連リンク:AI作曲の落とし穴?プロンプトの順番が音楽生成に与える影響とは
関連リンク:Sunoで検証!効果があるプロンプト数は○○個だった
関連リンク:Suno AIはプロンプトの順番で効果が変わる?実際に検証してみた。

[おすすめ]

このARグラスは本当にすごい。首をふってもディスプレイの位置が空間的に動かない。サブディスプレイがいらなくなるのでは?雑誌「家電批評」でもBEST BUYになっていましたが納得です。[PR]

コメント

タイトルとURLをコピーしました