グーグルは、同社の主力言語モデルのアップデートである Gemini 1.5 を発表しました (ただしリリースはされていません)。これはかつて Bard として知られていたチャットボットで使用されているモデルですが、相乗効果を発揮します。ジェミニに名前変更されました1週間前。
このリリースの大きな主張は、「モダリティを超えた長期コンテキストの理解における画期的な進歩」です。また、「Mixture-of-Experts (MoE)」として知られるアーキテクチャタイプに基づいて構築されており、効率の面でもステップアップすることを意図しており、パフォーマンスはおそらく Gemini 1.0 に似ていますが、より少ない電力を必要とする GPU に依存することを意味します。それを達成するためにクランクアップします。
マルチモーダルな「ロングコンテキスト」の理解に関する最初の大きな主張は、聞こえるほど専門用語ですが、Google Deepmind の共同創設者は、これが実際に何を意味するかを示すことを目的としたデモを X に投稿しました。
ツイートは削除された可能性があります
著作権にこだわる人たちを不快にさせることのない、パブリックドメインの大規模なテキストを賢明に利用しています。この場合は、月面着陸した NASA ミッションの 402 ページの記録です。LLMプロンプトが非常に巨大である (「長い」) にもかかわらず、ユーザーが必要とするもの (「コンテキスト」) に焦点を絞ることができるため、明らかにそれが「ロングコンテキスト」を意味します。
マッシュ可能な光の速度
デモでは、Gemini 1.5 は小説ほどの長さのテキストから 3 つの面白い瞬間を抽出できます。また、月面ブーツのプリントの写真 (ご存知、ニール・アームストロングが月面を歩く部分) と一致する出来事をトランスクリプト内で見つけることもでき、この文脈での「マルチモーダル」が何を意味するのかが明らかになります。 LLM と連携して動作する画像認識モデル。
このアップグレードは、Google を AI の話題に参加させ続けるための継続的な取り組みの一環です。OpenAIをリリースして2022年にみんなのAIランチを食べましたチャットGPT。昨年末、Google は Bard とそれを動かすモデルに伴う変更を真剣に宣伝し始めました。Bard は現在でも実行されている大規模な言語モデルであり、よりよく知られています。人気の Google と Android に組み込まれるChatGPT のように、日常の問題を解決したり、カクテル パーティーで驚かせたりするために使用される製品ではありません。特に、2023 年 12 月の研究論文では、Gemini のバージョンが次のように宣伝されていました。OpenAIのGPT-4の性能を超えた特定のケースでモデルを作成し、特定の AI テストで合格点を獲得した最初の LLM になります。マルチタスク言語理解」または MLU。
Gemini 1.5 に関する他の主張の中で、Google は、新しいモデルは大規模なデータセットを驚異的な精度で処理でき、やや眉をひそめる主張ではあるが、次のようなパフォーマンスを発揮すると述べている。推論あらゆる種類のデータ型にわたって。推論は、ほとんどの LLM の最も有名な弱点です。
CEOのSundar Pichai氏によると、GoogleはGemini 1.5を限られたグループにリリースするとのこと。 「開発者と企業顧客にこの実験的機能の限定プレビューを提供できることに興奮している」とピチャイ氏はGoogleのブログ投稿で述べた。
実際に正式にリリースされた製品の一部として Gemini 1.5 を試すことが許可される場合、より広範な Gemini ユーザーが Google のパフォーマンス主張の最終的な判断者となるでしょう。 Google最強モデルGemini Ultra発売一週間前なので、しばらく時間がかかるかもしれませんが、Gemini 1.5 は、いつか Google の新しいプレミアム (つまり「有料」) パッケージと呼ばれる Workspace 製品の一部になると考えても間違いありません。Google One AI プレミアム。