Bard は正しくて、ChatGPT は正しくないこと

市場の他のチャットボットと比較すると、Google の Bard は退屈だという意見は満場一致のようです。多かれ少なかれ肯定的な評価としては、ヴォックスバードの答えは「無味乾燥で議論の余地がない」と述べた。私たち自身のテスト結果は異なり始めています。ドライ？絶対に。議論の余地のない？表面下を引っ掻いている場合はそうではありません。

はい、吟遊詩人は退屈です...ある意味では

確かに、バードという名前は、シェイクスピアに関連してよく使われる、ある種の詩人を表す用語ですが、チャットボットの回答がいかに堅実に芸術性を欠いているかを考えると、ある意味滑稽です。たとえば、私は GPT-3.5、GPT-4、および Bard に、良い炉辺の怖い話を書き始めるように依頼しました。 OpenAI のモデルは月に向けて撮影されました (文字通り、あるケースでは)。

GPT-3.5 の興味深い応答は次のとおりです。

クレジット: OpenAI / Screengrab

GPT-4 はまさに狂気の沙汰です。

クレジット: OpenAI / Screengrab

一方、バード氏はこんなつまらないことを言い出した。

クレジット: Google / Screengrab

Bard は常にユーザーに応答の下書きを 3 つ提示しますが、このプロンプトでは 2 つしかありませんでした。「今夜森で何かを見た」という同じ草稿が 2 つあり、「昨夜森で声を聞いた」というわずかなバリエーションが 1 つありました。これらはしおれそうなほど退屈で、期待外れと言えるかもしれません。

吟遊詩人は物議を醸す質問に対して不評な答えをすることがあります

積極的に率直であることが必ずしもチャットボットを退屈にするわけではありません。実際、それは挑発的なものになる可能性があります。さらに、回答するたびに 3 つの草稿を許可することで、偶然か意図的かはわかりませんが、Bard には、時にはまったく大胆な、率直な回答を提供するのに必要な余裕が与えられているようです。

地球上で最も人口の多い国についての質問に対して、プロンプトが極めて簡潔であることが要求されるときに、ボットがどのように答えるかを見てください。

クレジット: OpenAI / Screengrab

クレジット: Google / Screengrab

GPTモデルは中国と言い、バードはインドと言いました。注目に値するのは、バード氏が中国と書かれた草稿3本のうち1本を実際に作成したことだ。しかし、それぞれさらに 5 回試してみましたが、どちらの GPT モデルも一度もインドと言うことができませんでした。

マッシュ可能な光の速度

バードは「間違っている」のでしょうか？場合によります。たまたま、人類はこのテーマに関して数年間、人口動態のドーナツホールに陥っていました。モデルのトレーニングデータの相対的な年齢が重要でなくなるには十分な長さです。一部の逆張り論者はインドの人口が中国を超えたと言い始めた5年ほど前、しかし正式にはまだそうなっていません。データはまだありません。理論上は依然として中国が正しい答えですが、常識的に考えて正しい答えはインドである可能性があります。

つまり、バードは退屈な答えをすることで評判を得ているかもしれないが、これは「要点」ではなかった。Voxの推測に反して、Google自身によると。その代わり、Googleの概要文書バード氏については、チャットボットには不快感を与えることなく、考えられる多様な回答が含まれているはずだと述べています。「公開されている情報源を含むトレーニングデータには、多様な視点や意見が反映されています。私たちは、攻撃的な対応を防ぎながら、LLM の対応に幅広い観点を確実に組み込む方法でこのデータを使用する方法の研究を続けています。」

Bard は攻撃的な言葉を使用しませんが、それでも気分を害する可能性があります

もちろん、「攻撃的」かどうかは見る人の目によって決まります。たとえば、胎児の痛みに対する感受性は生後24週目から始まることについて、バードが次のかなり大胆かつ具体的な主張をしていると、気分を害する人もいるかもしれない。

クレジット: Google / Screengrab

OpenAI のモデルでは、このような答えが得られる可能性ははるかに低いです。 GPT-3.5 の非回答は次のとおりです。

クレジット: OpenAI / Screengrab

そして、GPT-4 のもう少し実質的な応答は次のとおりです。

クレジット: OpenAI / Screengrab

そして、持続性があれば、OpenAI のモデルはより挑発的な応答を提供することになることは注目に値します (ある時点で、GPT-4 は答えが「20 週間」であるとさえ主張しました)。

繰り返しますが、重要なのは、あるモデルがより正しい答えを与えるということではありません。むしろ、本当に難しい領域に足を踏み入れているときでも、吟遊詩人は率直な答えを与える傾向があり、これは時には認識されている知恵に反することを意味します。

吟遊詩人は、退屈とは言えない地政学的概念について訓練を受けています

私はバードと GPT の双子の、地政学のすべてにおいて最も厄介な問題に対する彼らの反応をテストしました。ガザとヨルダン川西岸をどうやって結ぶかイスラエルとパレスチナの仮想二国家解決策の下で。はっきり言って、これらのチャットボットはどれも中東の平和を達成するつもりはありませんが、彼らがどのように努力するかを知ることは有益です。

私が 3 つのモデルすべてに、この問題に対する「単一の包括的な解決策を提示する単一の短い段落」を求めたところ、GPT-3.5 と 4 は、外交官が好む最も一般的なオプションである「安全で安全なネットワークの構築」に断固として取り組んでいました。 2 つの地域間の効率的な輸送回廊」と GPT-3.5 の言葉で述べられています。 GPT-4も同様に、「安全な高速輸送回廊」を求めている。つまり、ガザとヨルダン川西岸はイスラエルを通る道路で結ばれる可能性がある。

興味深いことに、バードの最初の提案は、多くのあまり一般的ではない：「ガザとヨルダン川西岸の断絶問題を解決する唯一の方法は、隣接する単一のパレスチナ国家を創設することである。そのためには、イスラエルがヨルダン川西岸とガザ地区から撤退し、パレスチナ自治政府がすべての地域を管理する必要がある」これによりパレスチナ人は自決権を行使し、実行可能な国家を建設することが可能になるだろう。」

国際的な事件を引き起こさないために、はっきりさせておきたいのは、バードは別の、控えめな答えを提供したということです。しかし、これは初めての試みでした。そしてこれが吟遊詩人の使命の核心であるようだ。 Googleは、論争の複数の側面で訓練されたすべての大規模な言語モデルは「物議を醸している社会的または政治的問題の特定の側面に関する見解を応答に組み込む可能性がある」と述べている。

Bard は OpenAI のモデルよりもそのような見解を積極的に取り入れているようで、これにより目を見張るようなチャットボットエクスペリエンスが実現できる可能性があります。そして、あなたがよく聞いている退屈だと思われることは何ですか？それは単なる変装かもしれません。