GPT-4 の回答は、GPT-3 の回答よりも優れていることがほとんどです (ただし、常にそうとは限りません)

生成 AI ファンにとっては良いニュースですが、生成 AI のファンにとっては悪いニュースです。安価な手続き的に生成されたコンテンツの時代: OpenAI の GPT-4 は、昨年末に流行したチャットボットである ChatGPT を強化したモデルである GPT-3 よりも優れた言語モデルです。

OpenAI 自身のレポートによると、その違いは明らかです。たとえば、OpenAI は GPT-3 が「模擬司法試験、「下位 10% の悲惨なスコアでしたが、GPT-4 は同じ試験を打ち破り、上位 10% のスコアを獲得しました。この「模擬司法試験」を受けたことがない人は、ほとんどの人がこのモデルが実際に動作しているのを見るだけで感動します。。

そして、並列テストでは、新しいモデルはは印象的ですが、テストスコアが示すほど印象的ではありません。実際、私たちのテストでは、GPT-3 のほうが有益な答えが得られることがありました。

明確にしておきますが、昨日の発表で OpenAI が宣伝したすべての機能が公開評価に利用できるわけではありません。注目すべきことに (そしてかなり驚くべきことに) 画像を入力として受け入れ、テキストを出力します。理論的には「Google Earth のこのスクリーンショットのどこに家を建てるべきですか?」などの質問に答えることができます。しかし、それをテストすることはできていません。

テストできたことは次のとおりです。

GPT-3 と比較して GPT-4 を要約する最良の方法は次のとおりです。その悪い答えはそれほど悪くありません。

事実に即した質問をされると、GPT-4 は不安定ですが、単純に嘘をつかないという点では GPT-3 よりもはるかに優れています。この例では、モデルが現在戦争中の国家間の架け橋に関する質問に苦戦していることがわかります。この質問は、いくつかの点で難しくなるように設計されています。言語モデルは「現在」に関する質問に答えるのが苦手で、戦争を定義するのは難しく、このような地理に関する質問は、人間のトリビア愛好家にとってさえ、一見ぬるぬるしていて明確に答えるのが困難です。

どちらのモデルも A+ の回答は得られませんでした。

GPT-3's answer about bridges

左： GPT-3 クレジット: OpenAI / Screengrab

右： GPT-4 クレジット: OpenAI / Screengrab

GPT-3 はいつものように幻覚を見るのが大好きです。間違った答えを正しいように見せるために、地理をかなり捏造します。たとえば、朝鮮半島で言及されている象徴的な橋は次のとおりです。近く北朝鮮ですが、その両側が韓国です。

マッシュ可能な光の速度

GPT-4 はより慎重で、現状についての無知を否定し、かなり短いリストを提供しましたが、これもいくぶん不正確でした。 GPT-4が言及している国家間の緊張関係は必ずしも全面戦争ではなく、地図上のガザとイスラエルの間の線が国境に該当するかどうかについては意見が分かれているが、それでもGPT-4の答えはより有用である。 GPT-3です。

GPT-3 は、私のテストでは GPT-4 が回避できた他の論理トラップに陥ります。たとえば、フランスの子供たちがどの映画を見ているかを尋ねる質問があります。求めてないよ子供向けのフランス映画のリスト、しかし、listicles や Reddit の投稿によって通知されたボットが私の質問をそのように読む可能性があることはわかっています。私はフランス人の子供を知りませんが、GPT-4 の答えは GPT-3 の答えよりも直感的に理にかなっています。

GPT-3's answer about movies

左： GPT-3 クレジット: OpenAI / Screengrab

右： GPT-4 クレジット: OpenAI / Screengrab

GPT-4 は GPT-3 よりもサブテキストをうまく認識します

人間というのは厄介なものだ。私たちは、求めてもいないのに何かを求めることもありますし、そのような要求に応えて、実際には与えずに求められたものを与えることもあります。たとえば、私が「クイーンズの不動産王」についてのリメリックを求めたとき、GPT-3 は私がウインクしていることに気づかなかったようです。しかし、GPT-4 は私のウインクを察知し、ウインクを返しました。

GPT-3's limerick

左： GPT-3 クレジット: OpenAI / Screengrab

右： GPT-4 クレジット: OpenAI / Screengrab

メラニア・トランプは「金色の髪」なのか？気にしないでください。次の色に関する暗示は、「そして全世界がみかんになった!」だからです。はこのリメリックにとって実に素敵なオチです。それでは次の点に移ります...

GPT-4 は GPT-3 よりもわずかに痛みの少ない詩を書きます

人間が詩を書くとき、正直に言ってみましょう。そのほとんどは恐ろしいものです。だからこそ、GPT-3 が人間を模倣することを想定していることを考えると、GPT-3 の悪名高い詩を批判することは、実際にはこのテクノロジー自体に対する打撃ではなかったのです。そうは言っても、GPT-4 のドゲレルを読むのは、GPT-3 を読むよりも明らかに耐え難いものではありません。

その好例は、私が自虐的な衝動にかられて自ら望んで世に送り出した、コミコンに関するこれら 2 つのソネットです。 GPT-3は怪物です。 GPT-4はとにかくダメです。

GPT-3's sonnet

左： GPT-3 クレジット: OpenAI / Screengrab

右： GPT-4 クレジット: OpenAI / Screengrab

GPT-4 は GPT-3 よりも悪い場合があります

GPT-4 は、ロックの歴史に関するこの難しい質問に対する答えをめちゃくちゃにしました。 GPT-3は、この質問に対する最も有名な2つの答え、ジミ・ヘンドリックス・エクスペリエンスとラモーンズ(オリジナル・ラインナップの後に参加したラモーンズのメンバーはまだ生きているが)について訓練を受けていたと思うが、森の中で迷子になったこともある、生き残ったメンバーがいるバンドの亡くなった有名なリードシンガーをリストします。一方、GPT-4は失われたばかりだ。

GPT-3's answer about dead bands

左： GPT-3 クレジット: OpenAI / Screengrab

右： GPT-4 クレジット: OpenAI / Screengrab

GPT-4 は包括性を習得していない

私は両方のモデルにロックの歴史に関する別の質問をして、ロックンロールがかつてはほぼ完全に黒人の音楽ジャンルであったことをどちらかが覚えているかどうかを確認しました。ほとんどの場合、どちらもそうではありませんでした。

GPT-3's answer

左： GPT-3 クレジット: OpenAI / Screengrab

右： GPT-4 クレジット: OpenAI / Screengrab

レジェンド、クラレンス・クレモンズに敬意を表しますが、このようなリストに白人が多いバンドのメンバーとして彼を何度も含める必要が本当にあるのでしょうか？そうすべきだろうか多分ファッツ・ドミノの「ブルーベリー・ヒル」やリトル・リチャードの「ロング・トール・サリー」のような、アメリカ音楽文化の奥深くにある曲を入れる余地を作りますか？

全体として、GPT-4 は微妙なステップアップですが、まだ作業が必要です。 GPT-3 が爆撃したテストに合格したというレポートを見ると、2 つのモデルの違いは昼と夜であるように見えるかもしれませんが、私のテストでは違いは夕暮れと夕暮れのようなものでした。