ホーム記事一覧 ChatGPTの精度が低下...

ChatGPTの精度が低下していることが研究で判明

2023.9.12

最近の調査で、人気のチャットボット「ChatGPT」のパフォーマンスに多少の浮き沈みがあることが判明しました。スタンフォード大学によって行われた研究では、数ヶ月にわたってChatGPTが様々なタスクをどの程度上手く処理出来るかが調査されました。これらのタスクには、数学の問題の解答、デリケートな質問への返答、ソフトウェアコードの生成、及び視覚的な推論等が含まれています。

その結論は、驚くべきものになりました。彼らは、ChatGPTの能力が一貫していないことを発見しました。例えば、このAIの2つのバージョン「GPT-3.5」と「GPT-4」に着目してみると、数学の問題を解くことに関しては、3月に好調なスタートを切ったGPT-4は素数を97.6%の確率で正確に識別することが出来ました。しかし、そのわずか3か月後には精度がたった2.4%に低下しています。それに対して、GPT-3.5では同じタスクの精度が7.4%から86.8%まで向上しています。

コードの作成や視覚的推論等のタスクでも、同様の変動が確認されています。この研究に携わったスタンフォード大学でコンピューターサイエンスを研究するJames Zou教授は、ChatGPTのパフォーマンスの大幅な変化に驚いたそうです。

「特定のタスクでのパフォーマンスを向上させるために大規模言語モデルをチューニングする場合、多くの予期せぬ結果が生じる可能性があり、実際には他のタスクでのパフォーマンスに悪影響を与える可能性があります。この言語モデルが物事にどのように応答するかには、あらゆる種類の興味深い相互依存関係があり、それが我々が観察した動作の悪化に繋がる可能性があります。」

パフォーマンスの変化を認識することの重要性

残念ながら、ChatGPTはブラックボックスのように動作するため、研究者や一般の人々はそれがどのように機能するかを確認出来ません。この透明性の欠如は、OpenAIがコードをオープンソースにしないことを決定した時に、より明らかになりました。Zou氏は、こうしたパフォーマンスの変化を認識し、時間の経過とともにモデルのパフォーマンスを監視し続けることへの重要性を強調します。

また、ChatGPTの回答の正確性が低下しただけでなく、その推論の説明も出来なくなりました。これは、生徒に数学の問題を段階的に解決する作業を示すように求めるのと似ています。これは、AIがどのように答えに到達するかを研究者が理解するのに役立ちます。しかし、ChatGPTがこのステップを省略し始めたため、その推論プロセスを研究することが困難になりました。

デリケートな質問の場合、GPT-4とGPT-3.5は当初、質問が差別的な考えに基づいているとして関与を拒否していました。しかし、6月までには、ChatGPTは単に回答を拒否するようになり、意思決定プロセスについての洞察はほとんど得られなくなりました。

まとめると、ChatGPTのパフォーマンスは予測不可能な場合があり、その内部動作を理解することは依然として課題のままですが、この研究の主なメッセージは、大規模言語モデルにおけるパフォーマンスの変化を監視し対処する必要がある、ということです。

この記事は、編集部が日本向けに翻訳・編集したものです。

原文はこちら

Viva Technol…

【速報】B Dash C…

【速報】B DASH C…

Apple、Thunde…

Bel and Bel:…

Android 16に搭…

車内が“セッション空間”…

Xiaomi、「AIで省…

Fujifilm、Xシリ…

ChatGPTの精度が低下していることが研究で判明

Ranking

TCL、「Playcube」を発表：ポータブルな「マ...

Android 16に搭載されるAI通知整理機能「N...

Xiaomi、「AIで省エネ」縦型タワーACを中国市...

車内が“セッション空間”に変わる―Spotify、A...

WhatsAppのトーク履歴移行がより簡単に

iPhone 17 Pro：Apple A19 Pr...

Spotify、ついにHi‑Fi／ロスレス音質導入へ...

JBL Horizon 3：カスタマイズ可能なアンビ...

Motorola、オープンイヤー型ワイヤレスイヤホン...

Gemini for Education：教育現場向...

PICK UP

Viva Technol...

【速報】B Dash Camp 2024 in Fuku...

【速報】B DASH CAMP 2024 Fall in...

POPULAR CATEGORY

共有:

Ranking

PICK UP

POPULAR CATEGORY