デジタルアシスタント「Alexa」が、1分程度の録音された音声を基にして、どんな人の声でも技術的に模倣出来るようになったとAmazonは発表しました。
それが宣伝通り機能すれば、コンピューターで生成された音声が変で、動画に使えないような仕上がりの現在の状況を改善する技術的なマイルストーンになるでしょう。
実際には、目標の人物の声紋に一致するように、機械的に生成された声紋や声色を変換していくという仕組みです。動画内のデモンストレーションでは元の声はわからないので、それが成功しているのかどうかを判断するのは簡単ではありません。まだ少しロボット感が残る喋り方ですが、どちらかと言えば成功のようです。
選択された文章は、ペースが遅く、ほとんどロボット的な読み上げだったので、間違いなくデモ用に用意されたものです。この技術は、写真をピカソ風の絵に変換するためにAIが利用されるのと似たようなもので、違うのはそれが音声に適用されるという点です。
好きな芸能人や友人、家族の声でAlexaが話すようになるのは楽しそうです。ただ、個人の音声データを使うという点に、インターネット上ではすぐに疑問の声が上がりました。それは、Amazon幹部が動画内で提案している使用方法になります。
その一方で、今は亡き親しい人物の声を聞くことは、癒やしの体験のように聞こえるかもしれません。ただし、一歩間違えれば意図しない結果をもたらす可能性もあります。多くの人々は、その技術が生きている人々になりすますために悪用されることは無いのか、同意無しに音声を使う権利があるのか、という疑問を持ち始めています。
おそらくその答えは、状況やユーザーに基づいて「場合によって異なる」でしょう。しかし、1つ確かなことは、こういった技術は既に存在し、ますます良くなるということです。合成された音声が人間の音声と判別出来なくなるのも、時間の問題です。
この記事は、編集部が日本向けに翻訳・編集したものです。
原文はこちら