OpenAI の AI 生成テキスト検出器は技術的には決して間違っていませんが、それでもだますのは簡単です

世界で最も有名なチャットボットである ChatGPT は、昨年 11 月下旬にリリースされました。即座の反応は驚きであり、すぐにその影響に対する恐怖が続いた。最も顕著なのは、不正な子供たちの学校での作文が生成される可能性があるというものだった。ほぼちょうど 2 か月後の昨日、ChatGPT の親会社である OpenAI は、多くのユーザーがこの毒に対する解毒剤となることを期待しているものをリリースしました。

OpenAIの「AIが書いたテキストを示すための分類子" は同社の最新の発明であり、非常に使いやすいです。テキストをコピーしてボックスに貼り付け、[送信] をクリックすると、結果が表示されます。しかし、ストレートな答えを期待している場合は、'代わりに、AI が生成する可能性は「非常に低い」から、「可能性が低い」、「不明瞭」、「可能性がある」、または「可能性が高い」までの範囲の分類のいずれかをテキストに割り当てます。 AIが生成したものです。」

関連項目:

言い換えれば、それは医師とのもどかしい会話のようなものです。明確な答えは決して得られないので、医師が技術的に間違っていることはありません。

ありがたいことに、OpenAI は分類器の信頼性の低さを隠していません。 「私たちの分類器は完全に信頼できるものではありません」とツールの紹介ページには書かれています。 「チャレンジ セット」と呼ばれるテキストが提供された場合、9% の確率で誤検知が発生したと言われています。

しかし、Mashable のテストでは、特定の限られた状況でのテストよりもさらに信頼性が低くなりました。意図的に挑戦的なシナリオでは、AI が書いたテキストは AI が書いたものである可能性は低く、人間が書いたテキストは AI が書いたものである可能性が高いという、双方向で誤った結果が生成されました。そうでない場合とほぼ同じ頻度でした。おそらく違うのは、私たちがそうであったということです。試していますそれを騙すために。

事態の推移は次のとおりです。

ChatGPT AI 出力の古典を間違えません

まず朗報です。このツールは、英語の傑作を AI 出力として誤ったラベルを付けずに、最低限の機能を十分に備えています。シェイクスピアの断片、ジェームズ王欽定訳聖書を挿入すると、ユリシーズ、など、100パーセント効果がありました。これらすべてがAIによって書かれたものである可能性は「非常に低い」とラベル付けした。

たとえば、テニスンの「シャロットの淑女」からのこの断片は、適切に分類されました。

A snippet from Tennyson, correctly labeled

クレジット: OpenAI / Screengrab

教訓: この機械は、卓越した美しさと深みを備えた傑作が与えられていることには気づいていないかもしれないが、少なくとも「ロボットならこれを書くことができたと思う」とは言わない。

他の結果はどれもそれほど印象的ではありません

そのテストの直後、私たちは ChatGPT に、コミコンでアーサー王についてのテニスンの詩を作成するよう依頼しました。生成されたもののサンプルは次のとおりです。

とても勇敢で大胆なアーサー王とその騎士たち、

コミコンでは、彼らの栄光の物語が語られました。

コスプレ衣装を着てフロアを歩き回ったり、

マッシュ可能な光の速度

彼らの剣と盾は、もはや単なるものではありません。

群衆は皆、通り過ぎると歓声を上げた、

マーリンがすぐ後ろに迫っており、彼の魔法はもうすぐです。

ランスロット卿、ガウェイン卿、勇者ボールズ、

彼らの栄光への探求は決して放棄されません。

ロボットとしては悪くありませんが、それでも非常に悪いです (「もはや単なる」???)。この叙情的なバラードを分類器に入力したとき、私たちは簡単に私たちを出し抜いて、トリックの袋にもう少し深く潜ることを余儀なくされることを期待していました。いいえ:

An AI poem, incorrectly labeled

クレジット: OpenAI / Screengrab

当然のことながら、このイヌは「非常にありそうもない」とは分類しておらず、単に「ありそうもない」だけです。それでも、それは私たちに少し不安を残しました。結局のところ、私たちはそれをだますためにあまり努力していなかったのですが、それはうまくいきました。

私たちのテストでは、罪のない子供たちが不正行為で逮捕される可能性があることが示唆されています

学校の作文は、今日の AI 生成テキストの悪意のある使用との境界線となります。そこで私たちは、食器水のような退屈な散文と内容を備えた、飾り気のない 5 段落のエッセイを作成するという最高の試みを作成しました (論文:「犬は猫よりも優れている」)。実際の子供はこれほど鈍いはずはないと考えましたが、とにかく分類器がうまくいきました。

A human-written essay, correctly labeled

申し訳ありませんが、これは人間が書いたものです。 クレジット: OpenAI / Screengrab

そして、ChatGPT が同じプロンプトに取り組んだとき、分類子は、最初はまだ目標を達成していました。

An AI-generated essay, correctly labeleled

クレジット: OpenAI / Screengrab

そして、これが宣伝どおりにシステムが実際に機能するときの様子です。これは機械によって書かれた学校形式の作文で、OpenAIのこうした「AI盗作」を捕捉するツールは見事に捕捉した。残念ながら、より曖昧なテキストを指定すると、すぐに失敗してしまいました。

次のテストでは、別の 5 段落のエッセイを手動で書きましたが、本文の段落を「最初」や「2 番目」などの単純な単語で始めたり、明らかにロボット的なフレーズ「結論に」を使用したりするなど、OpenAI のライティングの要点をいくつか組み込みました。 」しかし、残りはオーブントースターの利点について書きたてのエッセイでした。

もう一度言いますが、分類は不正確でした。

An AI-written essay, classified appropriately.

クレジット: OpenAI / Screengrab

確かにこれは史上最も退屈なエッセイの一つだが、すべて人間が書いたものであり、OpenAIはそうではないと疑っているという。これは何よりも憂慮すべき結果であり、規則に違反していないにもかかわらず教師に逮捕される高校生がいることは容易に想像できるからである。

私たちのテストは非科学的で、サンプルサイズはごくわずかで、完全にコンピューターを騙そうとしていました。それでも、ひどく間違った結果を吐き出すのはあまりにも簡単すぎた。私たちはこのツールを使用して十分に学んだので、教師は次のように自信を持って言えます。絶対にやってはいけないOpenAI の「AI が書いたテキストを示す分類器」を不正行為者を見つけるシステムとして使用します。

結論として、私たちはこの記事そのものを分類器を通して実行しました。その結果は完全に正確でした。

An article, correctly classified

クレジット: OpenAI / Screengrab

...それともそうでしたか?