ChatGPT vs Bing vs Bard: このチャットボットアリーナで最高のものを選ぶことができます

方法を知りたいチャットGPT、ビング、そして吟遊詩人お互いに積み重ねますか？へようこそチャットボットアリーナ。

カリフォルニア大学バークレー校研究グループカリフォルニア大学サンディエゴ大学とカーネギーメロン大学との提携により、ユーザーが同時に 2 人の匿名モデルとチャットし、最も優れたモデルに投票できる実験を考案しました。 Chatbot Arena には、Open AI (GPT-4)、Google (PaLM)、Meta (LLaMA)、Anthropic の Claude の LLM に加え、これらの企業の API を使用して構築された他のモデルが含まれています。

関連項目:

チャットボットアリーナにプロンプトを入力すると、2 人の匿名モデルが応答します。投票すると、実験によってどのモデルに投票したかがわかります。さまざまなモデルを並べて比較して実験し、リーダーボードで最も投票されたモデルを確認することもできます。

マッシュ可能な光の速度

カレンはどのチャットボットがより優れていましたか?私はAさんに投票しました。クレジット: LMSYS Org

Large Model Systems Organization (LMSYS) と呼ばれる研究グループは、最近急増した多くの LLM を効果的にベンチマークする方法として、クラウドソーシングの実験を作成しました。 Chatbot Arena を発表した LMSYS のブログ投稿には、「LLM アシスタントのベンチマークは非常に困難です。なぜなら、問題には限界がない可能性があり、応答品質を自動的に評価するプログラムを書くのは非常に難しいからです。」と述べられています。これまでに40,000以上の投票が行われています。

では、どの LLM が最適なのでしょうか?今のところ、その栄誉は GPT-4 に与えられています。 2 位は Anthropic の Claude-v1 で、次に Claude Instant が続きます。これは Anthropic のより軽量で高速な Claude バージョンです。をチェックしてくださいリーダーボード完全な結果を確認するには、チャットボットアリーナLMSYS Web サイトでご確認ください。

関連記事

Radio OneLlama がウェブでラジオ局を探し回る (100 件の招待)

米国政府が約30,000ビットコインを競売にかけている

トライ・ガイズは PR の危機を乗り越えた。彼らのやり方は次のとおりです。

チワワのターボ、ついに車椅子を3Dプリントした男と出会う

カリフォルニア海岸で写真撮影中の3人が列車に衝突、1人死亡

自分のビデオを自分で撮影できるデバイス