【AIゆり子、感情を持つ】GPT-4Oも活用！テキストから「人間を騙す声」を生み出すTTS技術の最前線

東京都知事選で話題となった「AIゆり子」や、24時間質問に答えた「AI庵野」。これらのリアルなAIの声は、すべて「TTS（テキスト・トゥ・スピーチ）」という技術で作られています。

ChatGPTアプリの裏側でも動くこの技術は、感情を込めた朗読や、人間の会話に割り込むレベルまで進化しています。本記事では、最新のAIスピーチ技術の仕組みと、通勤時間の情報収集から24時間ライブ配信まで可能な、驚きの活用アイデアを解説します。

?️ TTS（テキスト・トゥ・スピーチ）とは？技術の仕組みと主要プレイヤー
1. TTS技術の主要プレイヤーと進化
? 社会を動かす！都知事選「AIゆり子」「AI庵野」のリアルな活用事例
1. 政治活動での具体的な活用
? 業務効率化に直結！TTSを活用した情報収集とコンテンツ自動生成
1. 情報収集の効率化
2. コンテンツ制作と学習への応用
まとめ
1. 配信元情報

?️ TTS（テキスト・トゥ・スピーチ）とは？技術の仕組みと主要プレイヤー

TTS（Text To Speech）とは、入力されたテキスト（文章）をスピーチ（音声）に変換する技術の略称です。その意味は「テキストからスピーチを作る」というそのままの内容です。仕組みはシンプルです。私たちが「こんにちは、ロボシンクのYanoです」といったテキストをAIに入力すると、それをAIがそのまま音声として生成してくれる。これがTTSの基本的な働きです。

イメージとしては、「チャットGPTのスピーチ版というと分かりやすいかと思います」。この技術は、ChatGPTのスマホアプリ版でAIと音声でやり取りができる機能の基盤となっています。

TTS技術の主要プレイヤーと進化

このAIスピーチ技術は、OpenAI以外にも多くの大手テック企業や専門企業が公開しています。

OpenAI: ChatGPTのスマホアプリでTTS技術を使用。2024年5月に発表されたGPT-4Oのデモでは、「今までの会話機能、これを大幅に上回るアップデートが行われる予定」とされており、人間の指示に合わせて感情を込めた朗読や、会話の割り込み、応答速度の改善など、対話機能が大幅に強化される予定が示されました。
Google / Microsoft / Amazon: Googleは「テキストトゥースピーチAI」を、Microsoftは「Azureの音声読み上げ機能」を、Amazonは「Amazon Polly」をそれぞれ公開しています。
Eleven Labo: 音声系のAIに特化した企業で、入力したテキストを音声に変換するサービスを提供しています。

TTS自体は以前からある技術ですが、最近になって音声の精度が上がり、まるで人間と話しているかのようなリアルな音声を生成できるようになりました。

? 社会を動かす！都知事選「AIゆり子」「AI庵野」のリアルな活用事例

TTSは、そのリアルな音声生成能力から、様々な分野で活用されています。最も注目を集めた最近の活用事例の一つが、東京都知事選での利用です。

政治活動での具体的な活用

AIゆり子: 小池百合子氏が公開した「AIゆり子」は、小池氏のAIアバターがニュース形式で動画を配信するというアプローチでした。「小池ゆり子さんが公開したAIゆり子というアプローチにドギモン抜かれた人も多いと思います」。生身の小池氏ではなく、姿や声も小池氏に似せたAIアバターが使われ、その音声部分にTTSの技術が活用されています。
AI庵野: 別の候補者である庵野隆弘氏は、電話番号を公開し、そこに電話をかけると「AI庵野」が応答するという形でTTSを活用しました。庵野氏のマニフェストや考えを学習したAIが、庵野氏本人の声で回答してくれる仕組みで、しかも24時間対応可能でした。このAIにはEleven Laboの技術が使われていたことが明かされています。

こうした事例から、TTS技術は、政治的なメッセージの発信や、24時間対応のカスタマーサービスなど、社会的な影響力を持つ分野にも応用可能であることが示されました。