OpenAIのマルチモーダルモデルGPT-4o開発者は Microsoft の Azure AI を利用できるようになりました。
でMicrosoft ビルド 2024同社の開発者カンファレンスで Microsoft は、GPT-4o を手に入れたくてうずうずしているユーザーが Azure AI Studio を通じて API としてアクセスできるようになったと共有しました。
Microsoft の Azure AI Studio は、開発者が Azure でサポートされている最新のツールを試すためのプレイグラウンドです。これには、GPT-4 Turbo (そして現在は GPT-4o) などの OpenAI モデルが含まれています。
GPT-4o の画像およびビジョン機能は、OpenAI 独自の API および ChatGPT を介してすでに利用可能です。しかし、待望のボイスモードはまだ数週間先です。 Azure AI Studio と Microsoft の API を介した GPT-4o アクセスにも同じことが当てはまります。音声モードはまだありません。 Microsoft テクノロジー コミュニティ ハブブログ投稿は、オーディオ機能は「将来」登場すると述べた。
マッシュ可能な光の速度
現在、Azure AI を通じてオーディオ機能が利用できるかどうかは不明ですが、Microsoft CEO の Satya Nadella 氏は、人々が Copilot を通じて GPT-4o を (最終的には) 使用できる方法のいくつかを共有しました。これには、GPT-4o を搭載した Copilot と画面またはセッションを共有し、Copilot に要求することが含まれます。Minecraft のプレイを手伝ってください。ただし、Mashable の Alex Perry 氏が述べているように、Minecraft に苦戦している場合は、「ゲームを 10 分間プレイするか、Google で検索するだけで済みます。」
簡単にグーグルで検索できるMinecraftのヘルプ。 クレジット: マイクロソフト
Nadella 氏はさらに、開発者が Azure AI 上の GPT-4o で何ができるかについても話しました。
「最も素晴らしいことの 1 つは、あらゆるアプリ、あらゆる Web サイトを本質的に完全なマルチモーダル全二重会話キャンバスに変えることができるということです」とナデラ氏は語ります。つまり、開発者は、ユーザーがアプリや Web サイトに移動するのを支援するエージェントを作成できるということです。急いで一泊のキャンプ旅行に出発しようとしている男性のために、エージェントは、適切な靴を選択し、実際にショッピング カートに靴を追加するのにどのように役立つかを示しました。
ショッピング エージェントとしての GPT-4o は、無知なハイカーが適切な靴を見つけるのに役立ちます。 クレジット: マイクロソフト
基調講演の後半で、Microsoft CTO の Kevin Scott 氏は、GPT-4o がコードにどのように役立つかを示し、モデルがいかに高速かつ強力になり続けるかを強調しました。携帯電話をコード画面に向けると、GPT-4o を使用する ChatGPT スタイルのボットがコードを読み取り、主任エンジニアのジェニファー マーズマンがリアルタイムで問題のトラブルシューティングを行うのを支援しました。
GPT-4o は、コードの問題のトラブルシューティングに役立ちます。 クレジット: マイクロソフト
Build では、Microsoft は、次のような発表の多くに GPT-4o を散りばめました。副操縦士、チーム、など。しかし、Azure AI 上の GPT-4o により、マルチモーダル モデルが開発者の手に渡されるため、多くのマルチモーダル アプリやツールが確実に登場することになります。