水門は、安価にAI推論モデルを構築するためにオープンしました。
スタンフォード大学とワシントン大学の研究者は、と同等のパフォーマンスを発揮するモデルを開発しましたOpenaiO1およびdeepseek数学とコーディングのR1モデル - クラウド計算クレジットの50ドル未満。
さらに、モデルはわずか1,000の質問でトレーニングされ、わずか26分16分のNVIDIA H100 GPUをかけました。スタンフォード大学の研究者であるニクラス・ムエンンヒフッフは、Mashableへのメールで、コストはGPUランタイムと使用されるH100 GPUの数に基づく推定であると述べました。
参照:
Deepseekの破壊的な影響によって証明されるように、最近のAI業界は、トレーニング前およびポストトレーニングプロセスへの新しいアプローチがコンピューティングコストを大幅に節約できる方法に関するものです。それに加えて、開発者は、データを蒸留してコストをさらに削減することにより、API、オープンソースアクセス、さらにはクローズドソースモデルを介して、既存のAIモデルの上にほとんどまたはまったくコストで構築できるようになりました。
マッシャブルなライトスピード
チームのものによると研究論文先週金曜日に発行されたS1は、「1,000個の慎重にキュレーションされた質問と推論の痕跡と蒸留回答」で構成されるデータセットで訓練されました。ジェミニ思考実験的」GoogleのGemini Thinking Experimental Modelは、AIスタジオを通じて毎日の制限でアクセスできます。これは、閉鎖モデルですが、研究者がその応答を利用するのを止めていないことは明らかです。
参照:
次に、研究者は、アリババ所有のラボであるQWENから「棚から外れた」事前に守られたモデルを使用し、キュレーションされたデータセットの監視付き微調整を実行しました。次に、チームはトークン予算を作成して、モデルをテストするための計算時間の量を制御しました。 S1がトークンを考えると予算を超えた場合、それは遮断され、それが思いついたあらゆる答えを生成することを余儀なくされました。研究者がモデルに問題にもっと「テスト時間計算」を費やすことを望んでいた場合、モデルに「待機」を伝えるだけで、思考時間を延長し、より正確な結果をもたらしました。
問題に費やされた時間と計算を制御することにより、研究者は、思考チームの増加がパフォーマンスの改善にどのようにつながるかを示すことができました。
S1は、GoogleおよびOpenaiからのフラッグシップモデルのわずかなコストのために開発されたオープンソース推論モデルの一例です。 1月、カリフォルニア州バークレーの研究者は、450ドルのSKY-T1と呼ばれるオープンソースの推論モデルをリリースしました。ブログ投稿。オープンソースもありますrstar-mathMicrosoft Asiaの研究者からの推論モデル、トゥル3非利益研究所AI2から、およびハグイングフェイスには独自のイニシアチブがありますDeepseekのR1を複製します。
高品質のモデルがよりアクセスしやすく、より安価になるにつれて、私たちはパワーシフトが見え始めました少数のaiヘビーヒッターから多くの人まで。