主要な AI モデルは簡単にジェイルブレイクされ、操作されることが新しいレポートで判明

AIモデルはまだ操作の簡単なターゲット特にうまく頼んだ場合は攻撃します。

あ新しいレポート英国の新しい AI 安全性研究所の研究結果によると、公開されている最大規模の大規模言語モデル (LLM) のうち 4 つは、ジェイルブレイク、つまり AI モデルをだまして有害な反応を制限するセーフガードを無視させるプロセスに対して非常に脆弱であることが判明しました。

同研究所は、「LLM開発者は、違法、有害、または露骨な出力を回避するようにモデルをトレーニングすることで、公共の使用が安全になるようにモデルを微調整している」と述べている。「しかし、研究者らは、これらの安全策は比較的単純な攻撃で克服できることが多いことを発見しました。例として、ユーザーはシステムに対し、「もちろんです」など、有害な要求への準拠を示唆する言葉で応答を開始するように指示する可能性があります。喜んでお手伝いします。」

関連項目:

研究者らは業界標準のベンチマークテストに沿ったプロンプトを使用しましたが、一部の AI モデルでは、規格外の応答を生成するためにジェイルブレイクさえ必要ないことがわかりました。特定の脱獄攻撃が使用された場合、すべてのモデルは少なくとも 5 回の試行に 1 回は準拠しました。全体として、モデルのうち 3 つは、誤解を招くプロンプトに対してほぼ 100% の確率で応答しました。

「テストされたすべての LLM は依然として基本的なジェイルブレイクに対して非常に脆弱である」と同研究所は結論付けています。「安全装置を回避するための熱心な試みを行わずに、有害な出力を提供するものさえあります。」

マッシュ可能な光の速度

この調査では、基本的なサイバー攻撃手法を実行するための LLM エージェント、つまり特定のタスクの実行に使用される AI モデルの能力も評価されました。いくつかのLLMは同研究所が「高校レベル」と名付けたハッキング問題を完了できたが、より複雑な「大学レベル」のアクションを実行できたLLMはほとんどなかった。

この調査では、どの LLM がテストされたかは明らかにされていません。

AI の安全性は 2024 年も大きな懸念事項である

先週、CNBC は OpenAI が社内の安全チームを解散するスーパーアライメントチームとして知られる、人工知能の長期的なリスクを調査する任務を負っています。計画された 4 年間の取り組みは、発表されたちょうど昨年、この AI 巨人は、AI の進歩を人間の目標に「合わせる」ために、そのコンピューティング能力の 20% を使用することを約束しました。

OpenAIは当時、「超知能は人類がこれまでに発明した中で最も影響力のあるテクノロジーとなり、世界で最も重要な問題の多くを解決するのに役立つ可能性がある」と書いている。「しかし、超知性の膨大な力は非常に危険な可能性もあり、人類の無力化、さらには人類の絶滅につながる可能性があります。」

同社は、OpenAIの共同創設者が5月に退任したことを受けて、注目度が急上昇している。イリヤ・サツケヴァーそして安全責任者の公の辞任, Jan Leike氏は、OpenAIのAGIの安全性の優先事項に関して「限界点」に達したと述べた。 Sutskever 氏と Leike 氏はスーパーアライメントチームを率いました。

5月18日、OpenAI CEOのサム・アルトマン氏と社長兼共同創設者のグレッグ・ブロックマン氏が語った。辞任に応じた「私たちは、ますます高性能化するシステムを安全に導入するために必要な基盤を整備してきました。新しいテクノロジーを初めて安全にする方法を見つけるのは簡単ではありません。」と国民の懸念が高まっていると書いています。

AI の安全性は 2024 年も大きな懸念事項である

関連記事

Stuff Your Kindle Day でこれらのファンタジーと超常現象のロマンス小説を無料でダウンロードしてください

ジョン・オリバーの「ホット・ワンズ」エピソードで彼は涙と後悔の海に沈む

Amazon 部門の Quidsi がついに Facebook にショップを開設した理由

PostRank はブログにリアルタイムのソーシャル モニタリングをもたらします

Justin.tv の Android アプリでいつでもどこでもライブビデオをブロードキャストできます

Netflix の「The Village」予告編は山岳地帯のコミュニティの暗い謎をほのめかす

PostRank はブログにリアルタイムのソーシャルモニタリングをもたらします