ChatGPTの正体は「超高速なサイコロ振り」。紙とペンでAIを自作してわかった、大規模言語モデルの意外すぎる“単純な中身”

AI・テクノロジー

「チャットGPTの中身って、一体どうなってるの?」
そんな疑問を抱いたとき、私たちの頭には複雑怪奇な数式や、SF映画に出てくるような光り輝く電脳回路が浮かぶかもしれません。しかし、その「魔法」の正体を丸裸にしてみると、そこには驚くほどアナログで、拍子抜けするほどシンプルな「サイコロを振る姿」がありました。

最新のAI、いわゆる大規模言語モデル(LLM)は、私たちの想像を超えた「神の知能」なのか。それとも、ただの高性能な計算機なのか。今回は、コンピュータサイエンスの博士であり、LLMの専門書も執筆している「コトラボ」のりょうさんを迎え、AIの内部構造を解き明かします。

専門家いわく、「チャットGPTも、ほぼ紙とペンとサイコロみたいなもの」だといいます。今回は、30分でAIを自作する思考実験を通して、魔法の杖だと思っていたテクノロジーの正体が、ただの「超高速な連想ゲーム」だと気づくまでの旅に出かけましょう。


1. AIの正体は「次に来る単語」の連想ゲーム

AIが文章を作る仕組み。そこに高度な「意識」や「思考」は存在しません。その本質は、専門用語で「マルコフ過程」や「遷移図」と呼ばれる、極めて統計的な仕組みにあります。

簡単に言えば、AIがやっていることは「次に来る単語の出現確率」を計算しているだけです。

「大規模言語モデルのコアの部分だけを取り出すと、めっちゃ簡単なんで」

例えば、「僕は」という言葉の次には「マウス」が来る確率が100%だと学習していれば、AIは迷わず「マウス」を選択します。しかし、現実の言葉はもっと複雑です。「が」という助詞の後に続く言葉は、「ない」かもしれないし、「できない」かもしれないし、「苦手」かもしれません。

ここでAIは、過去に読み込んだ膨大なデータから、「『が』の次に『ない』が来る確率は50%、『できない』は25%……」といった統計的なリストを参照します。そして、その確率に基づいて、まさにサイコロを振るように次の言葉を決定していくのです。

正直、名前は難しそうですけど、やってることは居酒屋の注文の連鎖みたいなものです。「ビール」と言えば「枝豆」が来る確率が高い、という経験則を、全言語レベルで実行しているのがAIの正体。知能というよりは、猛烈な勢いで統計のページをめくっているイメージです。


2. 専門家と作る「カスのモデル」。サイコロで個人の思考をコピーする

では、実際にこの「世界一小さな言語モデル」を自作してみましょう。今回は、パーソナリティ水野さんの過去の発言を「学習データ」にして、文章を生成するワークショップです。

「本日は30分で水野さんが言語モデルを作る回です」

水野さんの「僕はマウスがないと右クリックができない」といった、少し変わった癖のあるフレーズをデータとして入力し、単語の繋がりを確率の図(遷移図)に書き起こしていきます。

  • 「僕は」→「マウス」 (100%)
  • 「マウス」→「が」 (100%)
  • 「が」→「ない」 (50%) / 「できない」 (25%) / 「苦手」 (25%)

この図が完成したら、いよいよサイコロの出番です。「が」という分岐点に来るたびにサイコロを振り、出た目に従って単語を選択していきます。するとどうでしょう。「僕はマウスができないので諦めました」といった、本人は一度も言っていないけれど、「いかにも水野さんらしい」新しい文章が生まれました。

これが「生成AI」が誕生する瞬間です。学習したデータそのものを出力するのではなく、データに基づいた「未知の組み合わせ」を確率で出力する。サイコロを振る回数はたった数回、図を描く時間を合わせても、お茶を淹れる間に「水野ボット」は完成します。この手軽さこそが、LLMのコアが極めてシンプルであることの証拠なのです。

ただし、ここで注意が必要なのは、AIはあくまで「確率」で選んでいるだけだということ。事実かどうかは二の次なので、サイコロの出目次第では、もっともらしく嘘をつく(ハルシネーション)性質も、この根本的な仕組みから生まれています。


3. Notion AIで体感する「自分専用モデル」の強み

この「学習データに基づいて回答する」という仕組みを理解すると、今話題のAIツールの使いどころも明確になります。その代表格が「Notion AI」です。

チャットGPTがインターネット上の広大な(しかし自分とは無関係な)知識から回答するのに対し、Notion AIは「自分がNotionに書き溜めたメモ」を優先的な学習ソースにしてくれます。

「Notionの要望。すごくてさ、チャットGPTみたいな一般的な知識から回答するんじゃなくて、俺のノーションをちゃんと学習して答えてくれるんだよ」

例えば、「去年の出張で泊まったホテルの名前」や「あの会議で誰かが言った一言」。キーワードが曖昧でも、AIが文脈(単語の繋がり)を辿って見つけ出してくれる。これは、先ほどの「水野ボット」の超高性能版を、自分のデータで飼っているようなものです。

魔法を「統計」という言葉に書き換えて理解すれば、AIは「万能の神」から、情報の逆引きや整理を得意とする「優秀な秘書」へと、その実力が見えてくるはずです。


4. 「カスのモデル」を「神のモデル」へ進化させた膨大な工夫

サイコロで動く小規模なモデルと、チャットGPT。その決定的な違いは、データの圧倒的な量と、そこに伴う「枝葉の工夫」の量にあります。

「次に来る単語を当てる」という幹の部分は同じですが、チャットGPTはそこに、単語を多次元の数値で表す「単語ベクトル」や、文脈のどこに注目すべきかを決める「アテンション」といった、人類の英知が詰まった巧妙なトリックを何重にも組み込んでいます。

この「単純な確率モデル」を、世界中のテキストデータと天文学的な計算資源で限界まで押し広げたとき、そこに「知能」としか思えない飛躍が生まれました。次回の配信では、この「カスのモデル」を「神のモデル」へと進化させた、魔法のような技術的工夫についてさらに深く潜っていきます。


まとめ

この記事をまとめると…

  • LLMの正体: 大規模言語モデルの本質は、単語の繋がりを確率で示すシンプルな「遷移図」である。
  • 生成の仕組み: AIは知能を持っているわけではなく、統計的に「次に来そうな単語」を予測して繋げているだけ。
  • 生成AIの定義: 学習データそのものではなく、データに基づいた「未知の組み合わせ」を確率的に出力することが本質。
  • Notion AIの凄さ: 自分の個人的なメモを学習ソースにできるため、情報の「逆引き」や整理に極めて強い。
  • 最新AIの驚異: 単純な原理を、膨大なデータと技術的工夫で拡張した先に、私たちの知る「魔法」のような精度が生まれている。

配信元情報

番組名:ゆるコンピュータ科学ラジオ
タイトル:大規模言語モデルはただの遷移図。実際に作って理解しよう!【大規模言語モデル1】#129
配信日:2024-06-16

タイトルとURLをコピーしました