テキスト読み上げ(Text to Speech, TTS)は古くから研究されている技術ですが、現状の技術はあまり実用性が高いとはいえません。TTSを使って人間どうしの会話をシミュレートするのはとても難しいタスクだといえます。

しかし、Microsoftはこのほど、トレーニングをそれほど必要としないAIベースのTTSを発表しました。彼らは中国人研究者とともに、200のボイスサンプルに基づいて開発し、リアルに聞こえるスピーチを作り出しました。

これはTransformersという、脳の神経細胞をエミュレートするディープニューラルネットワークで作られたといいます。Transformersを使うことで、情報処理がより効率的になります。このモデルは単語の発音の明瞭さで99.84%というスコアを記録しましたが、それでもまだ発音にはロボットさも残っています。このモデルによる発音サンプルはGitHubに置かれています。

GoogleのDuplex AI技術に非常に説得力があるように、MicrosoftのTTSも大変現実的だということが分かります。このような技術は歓迎したい一方で、嘘の情報を広めるために悪用される懸念も頭の片隅には置いておかなくてはいけません。

この記事は、編集部が日本向けに翻訳・編集したものです。

原文はこちら