電波系美少女バーチャルインターネッツアイドル文野純がメッタメタ遊んでメッタメタ考えて勉強するゲヲログ姉妹サイト...

メニュー⇒ ソフトウェア 思想評論 数学 書評 歴史 統計 雑感 馬鹿企画

ボイスチェンジャーでネットアイドルデビューを夢見る君へ

ボイスチェンジャーでネットアイドルデビューを夢見る君へ

ひとつ、結論から言えることがあるとすれば、「まだ買いではない」ということだ。

例えば、フリーソフトのボイスチャンジャーは「恋声」をはじめとして多くあるが、はっきり言えば、元の声がよくなければ使う意味がないというレベル。音声の重なりや発声の自然さ、どの次元においても古典機械的な音声改変にとどまっていて、高度な学習による精巧にできた発声の模倣レベルには達していないのが現状だ。発声レベルでの改質については、大企業のR&Dやベンチャー企業の試みに期待したいが、いずれにせよ低廉な価格で高い音声の模倣機能をゲッツするにはまだまだ時間がかかるだろう。

あたしも友人とともにこの分野でよく話し合ったが、「恋声」ではやはり音の重なりで音声改質をやっているなーという感覚がモロバレであり、もともといい声を持っている女性でなければ、VTuberとして活躍できるレベルには達せないのは明らかである(ほかの音声改質をソフトでもまったく状況は同じ)。友人の持っているローランドのVT-4(ボイストランスフォーマー)を通じたやりとりでさえ、あからさまに不自然さが出ている。発声の自然的な模倣や改質という本来の目的は、この2・3万もする本格的なハードウェアをもってしても到底解決できていない。だからこそ、今ボイスチェンジャーに出費してはいけない。もし、数万を投じて本格的にリアルタイムの音声改質をしようとしているのならば、それはやめたほうがいいだろう。かなり高い機材を買っても、結果がでないのが現状の技術なのだ。あたしのように、”技術に期待するのは勝手”だが、それに”出費するのはまだやめておいたほうがいい”。

むしろこの分野で注目されるのはそうした、「もともとの発声能力が飛躍的に高い」かたの創作活動である。これについてはwiredがいち早く報道している。安全保障分野で本格的なフェイク動画が作られるとヤバいことになるという示唆をするこの記事では、オバマがトランプに「たわごと」を述べるフェイク動画を見ることができる。もともとの俳優業のかたの発声プロット編集として人工知能を用いたらしいが、これは教師データが優れているからこそできたことだろう。このように、本格的なソフト・ハードそれらに加えて、優れた発声素質がなければプロには通用しないのだ。おそらくこれはDARPAなどがかなり技術研究している分野であるはずだと思われる。いつでも、本気になれば、要人がテロリストに宣戦布告したり、逆にテロリストや反西側諸国が西側諸国に宣戦布告するようなフェイク動画が作られる恐れはある。トランプが「フェイクニュース」などという言葉を一般的なテレビ番組で平然と述べ、政治力学が不確実に揺らめく今だからこそ、DARPAは必ず技術革新を目指しその「対応策」も検討しているはずだ。

また、一転平和的な話になるが、日本で一番「アテレコ」が上手いのが間違いなく、YouTuberである六丸だろう。六丸は「アテレコのプロフェッショナル」であり、世界屈指のMAD動画の作者でもある。六丸はあくまで平和的なMADにのっとった利用をしているわけで、軍事的なコミットメントなんぞあるわけがないが、ここまでくると賞賛すべき、技能の平和利用どころかそれを通り越して完全に平和ボケものwだ(むしろ、どっかの情報機関から引き抜きがあってもおかしくないレベルであるw)。なんにせよAIによる表現の改質技術は、軍事的ではなく、六丸のように平和的でバカバカしく笑えるコンテンツの作成にこそ使ってほしいものだ。

【2018年版】オフサイド知らないけど世界最高峰の試合を実況解説する【サッカー】 – YouTube

「her」という、この分野を参照するうえで、よく状況似ている映画がある。こんなオタ話に興味を持ったのがあなたならば…ぜひ見てみてほしいとあたしは思う。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする