OpenaiのO3およびO4-Mini幻覚以前のモデルよりも高い

によるOpenai独自のテスト、最新推論モデル、O3およびO4-mini、幻覚はO1よりも有意に高くなります。

最初に報告されましたTechCrunch、Openai'sシステムカード幻覚をテストするように設計されたPersonQA評価結果を詳細に説明しました。この評価の結果から、O3の幻覚率は33%であり、O4-Miniの幻覚率は48%であり、ほぼ半分です。それに比べて、O1の幻覚率は16%であり、O3幻覚は約2倍頻繁に幻覚化されます。

参照:

システムカードは、O3が「全体としてより多くの請求を行う傾向があり、より正確な請求と、より不正確/幻覚の主張につながる傾向がある」と述べた。しかし、Openaiは根本的な原因を知らず、単に「この結果の原因を理解するにはさらに研究が必要です」と言っているだけです。

Openaiの推論モデルは、GPT-4OやGPT-4.5などの非合理的なモデルよりも正確であると請求されます。説明されたO1発表で。 Oシリーズモデルは、「確率的方法に大きく依存して回答を提供するのではなく、「思考プロセスを改良し、さまざまな戦略を試し、間違いを認識する」ように訓練されています。

しかし、システムカードのためにGPT-4.5、2月にリリースされたもので、人物評価に19%の幻覚率が示されています。同じカードは、それをGPT-4Oと比較し、30%の幻覚率がありました。

マッシャブルなライトスピード

評価ベンチマークは難しいです。特に社内で開発された場合、それらは主観的である可能性があります研究データセットに欠陥があり、モデルを評価する方法も見つかりました。

さらに、いくつかは異なるベンチマークと方法に依存して、精度と幻覚をテストします。Huggingfaceの幻覚ベンチマーク約1,000の公開文書から「生成された要約での幻覚の発生」に関するモデルを評価し、Openaiの評価よりも市場の主要なモデルについては、全面的にはるかに低い幻覚率を発見しました。 GPT-4oは1.5パーセント、GPT-4.5プレビュー1.2パーセント、O3-mini-highでスコアを獲得し、推論は0.8パーセントを獲得しました。 O3とO4-Miniは現在のリーダーボードに含まれていないことに注意する価値があります。

それがすべて言うことです。業界標準のベンチマークでさえ、幻覚率を評価することを困難にしています。

次に、ModelsがWeb検索をタップして回答を調達するときにより正確になる傾向がある追加の複雑さがあります。しかし、ChatGpt検索を使用するために、Openaiデータを共有しますサードパーティの検索プロバイダー、およびEnterpriseの顧客がOpenaiモデルを内部で使用しているため、プロンプトをそれにさらすことをいとわない場合があります。

とにかく、Openaiが最新のO3およびO4-MINIモデルが非合理的なモデルよりも高い幻覚を言っていると言っている場合、それはユーザーにとって問題かもしれません。 MashableはOpenaiに手を差し伸べ、このストーリーを応答して更新します。