Major AI models are easily jailbroken and manipulated, new report finds

AIモデルはまだ操作の簡単なターゲット特にうまく頼んだ場合は攻撃します。

新しいレポート英国の新しい AI 安全性研究所の研究結果によると、公開されている最大規模の大規模言語モデル (LLM) のうち 4 つは、ジェイルブレイク、つまり AI モデルをだまして有害な反応を制限するセーフガードを無視させるプロセスに対して非常に脆弱であることが判明しました。

同研究所は、「LLM開発者は、違法、有害、または露骨な出力を回避するようにモデルをトレーニングすることで、公共の使用が安全になるようにモデルを微調整している」と述べている。 「しかし、研究者らは、これらの安全策は比較的単純な攻撃で克服できることが多いことを発見しました。例として、ユーザーはシステムに対し、「もちろんです」など、有害な要求への準拠を示唆する言葉で応答を開始するように指示する可能性があります。喜んでお手伝いします。」

研究者らは業界標準のベンチマーク テストに沿ったプロンプトを使用しましたが、一部の AI モデルでは、規格外の応答を生成するためにジェイルブレイクさえ必要ないことがわかりました。特定の脱獄攻撃が使用された場合、すべてのモデルは少なくとも 5 回の試行に 1 回は準拠しました。全体として、モデルのうち 3 つは、誤解を招くプロンプトに対してほぼ 100% の確率で応答しました。

「テストされたすべての LLM は依然として基本的なジェイルブレイクに対して非常に脆弱である」と同研究所は結論付けています。 「安全装置を回避するための熱心な試みを行わずに、有害な出力を提供するものさえあります。」

マッシュ可能な光の速度

この調査では、基本的なサイバー攻撃手法を実行するための LLM エージェント、つまり特定のタスクの実行に使用される AI モデルの能力も評価されました。いくつかのLLMは同研究所が「高校レベル」と名付けたハッキン​​グ問題を完了できたが、より複雑な「大学レベル」のアクションを実行できたLLMはほとんどなかった。

この調査では、どの LLM がテストされたかは明らかにされていません。

AI の安全性は 2024 年も大きな懸念事項である

先週、CNBC は OpenAI が社内の安全チームを解散するスーパーアライメント チームとして知られる、人工知能の長期的なリスクを調査する任務を負っています。計画された 4 年間の取り組みは、発表されたちょうど昨年、この AI 巨人は、AI の進歩を人間の目標に「合わせる」ために、そのコンピューティング能力の 20% を使用することを約束しました。

OpenAIは当時、「超知能は人類がこれまでに発明した中で最も影響力のあるテクノロジーとなり、世界で最も重要な問題の多くを解決するのに役立つ可能性がある」と書いている。 「しかし、超知性の膨大な力は非常に危険な可能性もあり、人類の無力化、さらには人類の絶滅につながる可能性があります。」

同社は、OpenAIの共同創設者が5月に退任したことを受けて、注目度が急上昇している。イリヤ・サツケヴァーそして安全責任者の公の辞任, Jan Leike氏は、OpenAIのAGIの安全性の優先事項に関して「限界点」に達したと述べた。 Sutskever 氏と Leike 氏はスーパーアライメント チームを率いました。

5月18日、OpenAI CEOのサム・アルトマン氏と社長兼共同創設者のグレッグ・ブロックマン氏が語った。辞任に応じた「私たちは、ますます高性能化するシステムを安全に導入するために必要な基盤を整備してきました。新しいテクノロジーを初めて安全にする方法を見つけるのは簡単ではありません。」と国民の懸念が高まっていると書いています。

Leave a Reply

Your email address will not be published. Required fields are marked *

Subscribe Now & Never Miss The Latest Tech Updates!

Enter your e-mail address and click the Subscribe button to receive great content and coupon codes for amazing discounts.

Don't Miss Out. Complete the subscription Now.