新しいのがありますAI街中のプレイヤー、これに注目してみるのもいいかもしれません。
月曜日、中国の人工知能企業ディープシークDeepSeek R1 と呼ばれる新しいオープンソースの大規模言語モデルを立ち上げました。
DeepSeek によると、R1 は、次のような他の人気のある LLM (大規模言語モデル) よりも優れています。OpenAIいくつかの重要なベンチマーク、そしてそれは特に良い数学、コーディング、推論のタスクを含みます。
ツイートは削除された可能性があります
DeepSeek R1 は実際には DeepSeek R1 Zero を改良したもので、教師あり微調整と呼ばれる従来使用されていた方法を使用せずにトレーニングされた LLM です。これにより、特定のタスクでは非常に有能になりましたが、DeepSeek 自体が述べているように、Zero は「可読性が低く、言語の混合が不十分」でした。 R1 では、強化学習でトレーニングされる前に「多段階トレーニングとコールドスタート データ」を組み込むことで、これらの問題が修正されています。
マッシュ可能な光の速度
難解な専門用語はさておき(詳細はオンライン興味があれば)、DeepSeek R1 について知っておくべき重要なことがいくつかあります。第一に、これはオープンソースであるため、専門家による精査が必要であり、これによりプライバシーとセキュリティに関する懸念が軽減されるはずです。 2 番目に、Web アプリとして無料で使用できますが、API アクセスは無料です。とても安い(100 万の入力トークンに対して 0.14 ドル、OpenAIの最も強力な推論モデル o1) が $7.5 です。
関連項目:
最も重要なことは、これは非常に非常に有能であるということです。それをテストするために、私はすぐにそれを深海に放り込み、公開データを解析する必要があるかなり複雑な Web アプリをコーディングするように依頼し、観光客向けの旅行と天気情報を含む動的な Web サイトを作成しました。驚くべきことに、DeepSeek は完全に許容できる HTML コードをすぐに生成し、途中でコードを独自に改善および最適化しながら、私の入力に基づいてサイトをさらに改良することができました。
それはすべて明日やります。 クレジット: Stan Schroeder / Mashable / DeepSeek
また、5 分でチェスのスキルを向上させるように依頼すると、きちんと整理された非常に役立つヒントが多数返されました (チェスのスキルは向上しませんでしたが、単に DeepSeek の提案を実際に実行するのが面倒だっただけです)。 。
次に私は DeepSeek に、それがどれだけ賢いのかを正確に 3 文で証明するよう依頼しました。人間である私は、3 つの文のいずれかを検証したり、完全に理解するほど賢くはありません。以下のスクリーンショットでは、DeepSeek が答えを導き出すときの「思考プロセス」を見ることができますが、これはおそらく答えそのものよりもさらに魅力的です。
わかりました、あなたは賢いのです。 クレジット: Stan Schroeder / Mashable / DeepSeek
使用感が印象的です。しかし、として米ZDnetが注目、これらすべての背景には、一部の競合モデルよりも桁違いに低いトレーニングコストと、米国のAI企業が処分しているチップほど強力ではないチップがあります。このように、DeepSeek は、推論能力を備えた非常に賢い AI の訓練や使用に、極端なコストがかかる必要はないことを示しています。