【AIゆり子、感情を持つ】GPT-4Oも活用!テキストから「人間を騙す声」を生み出すTTS技術の最前線

AI・テクノロジー

東京都知事選で話題となった「AIゆり子」や、24時間質問に答えた「AI庵野」。これらのリアルなAIの声は、すべて「TTS(テキスト・トゥ・スピーチ)」という技術で作られています。

ChatGPTアプリの裏側でも動くこの技術は、感情を込めた朗読や、人間の会話に割り込むレベルまで進化しています。本記事では、最新のAIスピーチ技術の仕組みと、通勤時間の情報収集から24時間ライブ配信まで可能な、驚きの活用アイデアを解説します。


🎙️ TTS(テキスト・トゥ・スピーチ)とは?技術の仕組みと主要プレイヤー

TTS(Text To Speech)とは、入力されたテキスト(文章)をスピーチ(音声)に変換する技術の略称です。その意味は「テキストからスピーチを作る」というそのままの内容です。仕組みはシンプルです。私たちが「こんにちは、ロボシンクのYanoです」といったテキストをAIに入力すると、それをAIがそのまま音声として生成してくれる。これがTTSの基本的な働きです。

イメージとしては、「チャットGPTのスピーチ版というと分かりやすいかと思います」。この技術は、ChatGPTのスマホアプリ版でAIと音声でやり取りができる機能の基盤となっています。

TTS技術の主要プレイヤーと進化

このAIスピーチ技術は、OpenAI以外にも多くの大手テック企業や専門企業が公開しています。

  • OpenAI: ChatGPTのスマホアプリでTTS技術を使用。2024年5月に発表されたGPT-4Oのデモでは、「今までの会話機能、これを大幅に上回るアップデートが行われる予定」とされており、人間の指示に合わせて感情を込めた朗読や、会話の割り込み、応答速度の改善など、対話機能が大幅に強化される予定が示されました。
  • Google / Microsoft / Amazon: Googleは「テキストトゥースピーチAI」を、Microsoftは「Azureの音声読み上げ機能」を、Amazonは「Amazon Polly」をそれぞれ公開しています。
  • Eleven Labo: 音声系のAIに特化した企業で、入力したテキストを音声に変換するサービスを提供しています。

TTS自体は以前からある技術ですが、最近になって音声の精度が上がり、まるで人間と話しているかのようなリアルな音声を生成できるようになりました。


📢 社会を動かす!都知事選「AIゆり子」「AI庵野」のリアルな活用事例

TTSは、そのリアルな音声生成能力から、様々な分野で活用されています。最も注目を集めた最近の活用事例の一つが、東京都知事選での利用です。

政治活動での具体的な活用

  • AIゆり子: 小池百合子氏が公開した「AIゆり子」は、小池氏のAIアバターがニュース形式で動画を配信するというアプローチでした。「小池ゆり子さんが公開したAIゆり子というアプローチにドギモン抜かれた人も多いと思います」。生身の小池氏ではなく、姿や声も小池氏に似せたAIアバターが使われ、その音声部分にTTSの技術が活用されています。
  • AI庵野: 別の候補者である庵野隆弘氏は、電話番号を公開し、そこに電話をかけると「AI庵野」が応答するという形でTTSを活用しました。庵野氏のマニフェストや考えを学習したAIが、庵野氏本人の声で回答してくれる仕組みで、しかも24時間対応可能でした。このAIにはEleven Laboの技術が使われていたことが明かされています。

こうした事例から、TTS技術は、政治的なメッセージの発信や、24時間対応のカスタマーサービスなど、社会的な影響力を持つ分野にも応用可能であることが示されました。


💡 業務効率化に直結!TTSを活用した情報収集とコンテンツ自動生成

TTS技術は、特に情報収集やコンテンツ制作の効率化に貢献します。

TTS技術の進化が、OpenAI Soraのような動画AIに搭載される未来

情報収集の効率化

TTSを活用した情報収集のアイデアとしては、「ニュース記事の読み上げ」が挙げられます。

  1. 海外のニュース記事をChatGPTなどのAIで翻訳・要約させる。
  2. 要約されたテキストをAIスピーチで読み上げてもらう。
  3. 音声ファイルを通勤中などに聞くことで、情報収集を効率化する。

話し手は「これ全部自動化できます」と述べており、寝ている間に自分が読みたいニュース記事をAIに情報収集させ、朝起きる段階で音声ファイルを用意しておく、という使い方も可能です。

コンテンツ制作と学習への応用

TTS技術があれば、「台本さえあれば24時間ライブ配信する音声番組っていうのも作れてしまうわけですね」と指摘されています。

また、TTSを搭載したAIと対話する機能は、学習や思考の整理にも使えます。例えば、AIに外国語を話すよう指示し、自分が日本語で回答することで、語学学習に利用できます。このとき、AIに「もっと早く話して」「もっと遅く話して」といった会話スピードの調整も指示できます。

さらに、自動化ツールであるMakeなどと連携することで、TTSを使った音声の自動化も実装できます。


TTSの技術が、Adobe AIの音楽編集機能にもたらす進化

まとめ

  • TTS(Text To Speech)は、テキストから音声スピーチを生成する技術であり、ChatGPTの会話機能にも利用されています。
  • OpenAIはGPT-4Oのデモで、感情を込めた朗読や会話の割り込みなど、TTS技術を活用した対話機能の大幅な強化を発表しました。
  • TTSは、都知事選での「AIゆり子」や「AI庵野」といった事例に見られるように、リアルな音声生成により、24時間応答AIなどの活用が進んでいます。
  • TTSを活用すれば、海外ニュースの翻訳・要約と音声化を自動化でき、通勤時間などの耳の空き時間を活用した情報収集が可能になります。

配信元情報

番組名:耳で学ぶAIロボシンク
タイトル:TTSってなに?AIでスピーチを作成する技術に触れる🤖🎤
配信日:2024-07-09

タイトルとURLをコピーしました