人型の会話型ロボット「Figure 01」の不気味なデモがインターネット上に公開された。これが削除されたシーンではないことが信じられない私、ロボット。
デモの図 01 には、以下が詰め込まれていますOpenAI-tech は何を「見る」ことができるのかを問われています。前衛的なロボットは視覚認識の能力を誇示し、目の前にあるもの、つまり赤いリンゴ、食器が入った物干し棚、そして図 01 に質問した男性を正確に説明します。
OK、少し不気味ですが、これまでに見たことのないものではありませんよね?たとえば、昨年 Google は、AI モデル Gemini が、青いゴム製のアヒルからさまざまな手描きのイラストに至るまで、目の前に置かれた刺激をどのように認識できるかを披露しました(ただし、後になって判明しました)。滑らかな編集により、その機能がわずかに誇張されました)。
しかし、その男は「何か食べてもいいですか?」と尋ねました。 Figure 01 はリンゴを掴み、それがテーブルの上にある唯一の食べられる物であることをはっきりと認識し、それを彼に手渡します。
えー、ウィル・スミスはすぐには現れないって本当ですか?
マッシュ可能な光の速度
Figure 01 ロボットはどのように動作しますか?
Figure 01 と人間とのシームレスなインタラクションを支えているものは、正確には何でしょうか?これは、Figure 01 を不格好なジャンクの塊から、SF 風の未来的なロボットに変える新しい Visual Language Model (VLM) です。あまりにも人間っぽい。 (VLM は、OpenAI と Figure 01 の背後にあるスタートアップである Figure とのコラボレーションから生まれました。)
図 01 は、リンゴを渡した後、「このゴミを拾いながら、なぜ [リンゴをくれた] のか説明してもらえますか?」と尋ねられたときに、リンゴが複数のタスクに同時に取り組むことができることを示しています。
ロボットは、何がゴミなのか (何がゴミではないのか) を認識し、図 01 でゴミ箱として特定されている場所に適切なアイテムを置きながら、目の前にある唯一食べられるものだったため、男性にリンゴを差し出したと説明します。それは素晴らしいマルチタスク処理です。
最後に、男性は図 01 にどの程度うまくいったと思うかを尋ねます。ロボットは会話形式で「かなりうまくできたと思います。リンゴは新しい持ち主を見つけました。ゴミはなくなり、食器は正しい位置にあります。」と言いました。
によるとブレット・アドコックFigure の創設者である Figure 01 には、目の前のシーンを「理解」するのに役立つ VLM データを供給するオンボード カメラがあり、ロボットが目の前の人間とスムーズに対話できるようになります。 Adcock と並んで、Figure 01 は数人のキープレイヤーボストン・ダイナミクス、テスラ、グーグル・ディープ・マインド、アーチャー・アビエーションから。
イーロン・マスク氏を掘り下げる最高のロボット, アドコックはフィギュア01は遠隔操作ではないと豪語しました。言い換えれば、オプティマスとは異なり、シャツをたたむことで話題になった, 図01は独立して動作することができます。
アドコックの最終目標は?何十億もの人型ロボットを制御する超高度な AI システムをトレーニングし、複数の業界に革命を起こす可能性があります。みたいですわたし、ロボット私たちが思っていたよりもずっと現実的です。