方法を知りたいチャットGPT、ビング、 そして吟遊詩人お互いに積み重ねますか?へようこそチャットボットアリーナ。
カリフォルニア大学バークレー校研究グループカリフォルニア大学サンディエゴ大学とカーネギーメロン大学との提携により、ユーザーが同時に 2 人の匿名モデルとチャットし、最も優れたモデルに投票できる実験を考案しました。 Chatbot Arena には、Open AI (GPT-4)、Google (PaLM)、Meta (LLaMA)、Anthropic の Claude の LLM に加え、これらの企業の API を使用して構築された他のモデルが含まれています。
チャットボット アリーナにプロンプトを入力すると、2 人の匿名モデルが応答します。投票すると、実験によってどのモデルに投票したかがわかります。さまざまなモデルを並べて比較して実験し、リーダーボードで最も投票されたモデルを確認することもできます。
マッシュ可能な光の速度
カレンはどのチャットボットがより優れていましたか?私はAさんに投票しました。 クレジット: LMSYS Org
Large Model Systems Organization (LMSYS) と呼ばれる研究グループは、最近急増した多くの LLM を効果的にベンチマークする方法として、クラウドソーシングの実験を作成しました。 Chatbot Arena を発表した LMSYS のブログ投稿には、「LLM アシスタントのベンチマークは非常に困難です。なぜなら、問題には限界がない可能性があり、応答品質を自動的に評価するプログラムを書くのは非常に難しいからです。」と述べられています。これまでに40,000以上の投票が行われています。
では、どの LLM が最適なのでしょうか?今のところ、その栄誉は GPT-4 に与えられています。 2 位は Anthropic の Claude-v1 で、次に Claude Instant が続きます。これは Anthropic のより軽量で高速な Claude バージョンです。をチェックしてくださいリーダーボード完全な結果を確認するには、チャットボットアリーナLMSYS Web サイトでご確認ください。