最近の調査で、人気のチャットボット「ChatGPT」のパフォーマンスに多少の浮き沈みがあることが判明しました。スタンフォード大学によって行われた研究では、数ヶ月にわたってChatGPTが様々なタスクをどの程度上手く処理出来るかが調査されました。これらのタスクには、数学の問題の解答、デリケートな質問への返答、ソフトウェアコードの生成、及び視覚的な推論等が含まれています。
その結論は、驚くべきものになりました。彼らは、ChatGPTの能力が一貫していないことを発見しました。例えば、このAIの2つのバージョン「GPT-3.5」と「GPT-4」に着目してみると、数学の問題を解くことに関しては、3月に好調なスタートを切ったGPT-4は素数を97.6%の確率で正確に識別することが出来ました。しかし、そのわずか3か月後には精度がたった2.4%に低下しています。それに対して、GPT-3.5では同じタスクの精度が7.4%から86.8%まで向上しています。
コードの作成や視覚的推論等のタスクでも、同様の変動が確認されています。この研究に携わったスタンフォード大学でコンピューターサイエンスを研究するJames Zou教授は、ChatGPTのパフォーマンスの大幅な変化に驚いたそうです。
「特定のタスクでのパフォーマンスを向上させるために大規模言語モデルをチューニングする場合、多くの予期せぬ結果が生じる可能性があり、実際には他のタスクでのパフォーマンスに悪影響を与える可能性があります。この言語モデルが物事にどのように応答するかには、あらゆる種類の興味深い相互依存関係があり、それが我々が観察した動作の悪化に繋がる可能性があります。」
パフォーマンスの変化を認識することの重要性
残念ながら、ChatGPTはブラックボックスのように動作するため、研究者や一般の人々はそれがどのように機能するかを確認出来ません。この透明性の欠如は、OpenAIがコードをオープンソースにしないことを決定した時に、より明らかになりました。Zou氏は、こうしたパフォーマンスの変化を認識し、時間の経過とともにモデルのパフォーマンスを監視し続けることへの重要性を強調します。
また、ChatGPTの回答の正確性が低下しただけでなく、その推論の説明も出来なくなりました。これは、生徒に数学の問題を段階的に解決する作業を示すように求めるのと似ています。これは、AIがどのように答えに到達するかを研究者が理解するのに役立ちます。しかし、ChatGPTがこのステップを省略し始めたため、その推論プロセスを研究することが困難になりました。
デリケートな質問の場合、GPT-4とGPT-3.5は当初、質問が差別的な考えに基づいているとして関与を拒否していました。しかし、6月までには、ChatGPTは単に回答を拒否するようになり、意思決定プロセスについての洞察はほとんど得られなくなりました。
まとめると、ChatGPTのパフォーマンスは予測不可能な場合があり、その内部動作を理解することは依然として課題のままですが、この研究の主なメッセージは、大規模言語モデルにおけるパフォーマンスの変化を監視し対処する必要がある、ということです。
この記事は、編集部が日本向けに翻訳・編集したものです。
原文はこちら