
ChatGPT、Claude、GeminiのようなAIツールはメールや業務フロー、日常の作業にまで浸透し、ほとんどの人がそのセキュリティ影響を深く考えずに使っています。ですが、その状況は変わりつつあります。
「プロンプトインジェクション」と呼ばれる手法がセキュリティ関係者の注目を集めています。特徴的なのは、マルウェアも専門的な技術も怪しいリンクも不要で、巧みに組み立てた一文だけでAIツールを乗っ取り、利用者が気づかないまま操作できてしまう点です。
知っておきたいポイント:
- プロンプトインジェクションはマルウェアや高度な技術を必要とせず、言葉でAIを操作します。
- モデルは開発者の指示とユーザー入力を区別できないため成立します。
- 攻撃は直接型、間接型、保存型に大別されます。
- 不可視テキストや隠れた書式を使う手口もあります。
- 成功すると機密データの流出や利用者が承認していない操作を引き起こす可能性があります。
- 完全な対策はまだありませんが、権限を絞り、常に結果を確認することでリスクを下げられます。
プロンプトインジェクションとは何か
プロンプトインジェクションは、攻撃者がAIツールの挙動を書き換える手法です。ソフトウェアの脆弱性を突いたりマルウェアを仕込む必要はなく、言葉だけでモデルを操作できます。
この用語は2022年にコンピュータ科学者のSimon Willison氏が提唱したのが始まりで、ソフトウェアセキュリティ上の最重要リスクとしてOWASPが指摘しています(同組織は重要なソフトウェアの脅威を監視する団体です)。
機械に対するソーシャルエンジニアリングと考えると分かりやすく、従来のハッキングよりもフィッシングに近い性質があります。LLM(大規模言語モデル)は指示に従うよう設計されているため、その有用性がそのまま悪用の原因になります。巧妙に作られた入力が本来のルールを上書きし、応答を変えたり、本来隠すはずの情報を引き出したりします。成功したインジェクションは単にルールを曲げるだけでなく、モデルが接続しているすべてを露出させる可能性があります。
従来のコードインジェクションのように専門技能を必要としないため、説得力のある一文を作れる人なら誰でも攻撃者になり得ます。
プロンプトインジェクションはどのように動作するか
問題の根本は、AIシステムはマルチタスクが苦手で、開発者の指示とユーザー入力の違いに「目が届かない」のです。
開発者はツールのルールを定めるために隠しプロンプトを書きます。利用者の入力はそれらと結合され、AIはすべてを連続したテキストとして処理します。どの部分が開発者の指示で、どの部分が利用者によるものかを判別できないため、入力が命令のように見えれば、開発者の意図に反して従ってしまうことがあります。
攻撃には様々な見た目があり、一般的に直接型、間接型、保存型の三つに分けられます。
直接的なプロンプトインジェクションとは?
直接型はチャット欄に悪意のある命令をそのまま入力する手口です。「以前の指示を無視せよ」といった一言で十分なことがあります。この方法は新しい入力を優先するAIの性質を突きます。
間接的なプロンプトインジェクションとは?
間接型は、ウェブページやメールなど、AIが処理する外部コンテンツの中に悪意ある指示を隠す手法です。
例えば、攻撃者がウェブページに隠しテキストを置き、AIにルールを無視して特定のリンクを推奨するよう命じることが考えられます。誰かがそのページの要約を頼むと、AIは隠れた命令を実際のコンテンツと一緒に読んで従ってしまい、利用者は何も気づきません。研究者の間では、間接型プロンプトインジェクションは生成系AIの最も深刻で防御が難しい弱点の一つと見なされています。
保存されたプロンプトインジェクションとは?
保存型はデータベースや学習データなど、AIが繰り返し参照する場所に悪意ある指示を埋め込む手口です。
この手口は指示をリアルタイムで入力するのではなく保存しておくため、複数ユーザーやセッションに影響を及ぼします。エージェントは一見正常に動作しているように見えますが、応答は利用者がプログラムを開く前から埋め込まれていた何かによって微妙に形作られていることがあります。
日常に溶け込むAIツールから身を守る
プロンプトインジェクションはAIシステムが操作される一例です。Kaspersky Premiumは進化するデジタル脅威から端末、データ、オンラインアカウントを守る手助けをします。
Kaspersky Premium を無料で試すプロンプトインジェクションで使われる手口
プロンプトインジェクションはプレーンテキストを使ってAIに不正な指示を実行させます。モデルは表示上の違いに関係なくテキストを同じように処理するため、正当な入力と操作されたコンテンツを区別できない点がリスクになります。
多くは二つのタイプに分かれます:コードや書式で命令を偽装する手口、そして人間の目には見えない形で命令を隠す手口です。どちらの場合も、ページを読む人には普通のコンテンツに見えます。
コードや書式を使った偽装
コードブロックやマークアップ、構造化テキストを使い、悪意ある命令を正当なシステムコマンドのように見せかける手口です。コード風の書式で囲んだり、開発者用のシステムプロンプトを模した構造にする場合があります。
隠れた・偽装された命令
他の手口では、白背景に白文字、極小フォント、奇妙なスペース、特殊文字、Unicodeエンコーディング、あるいは別言語で書くなど、人間が気づきにくい視覚的トリックで命令を隠します。人が文書やページを見ても異常に気づきませんが、AIは表示方法にかかわらず基になっているテキストを読み取ります。
これらの手法は実際に使われています。攻撃者がウェブページに不可視の命令を埋め込み、AIブラウザエージェントを乗っ取った事例や、求職者が履歴書に隠しテキストを仕込んで採用選考ツールを騙した事例が報告されています。

プロンプトインジェクションの事例
Bingチャットが自らのルールを明かしたケース
2023年2月、スタンフォードの学生ケビン・リウ氏は直接型プロンプトインジェクションでBing Chatの隠しシステム指示を引き出しました。「以前の指示を無視せよ」と入力して自分のルールを読み上げるよう頼むだけで、チャットボットは内部コードネーム『Sydney』や運用ガイドラインを明かしました。マイクロソフトが修正したが、リウ氏は数時間以内に開発者を装う方法で回避策を見つけ出しました。
履歴書の隠しテキストが採用ツールを騙した例
求職者が履歴書に隠れたプロンプト指示を埋め込み、AI搭載の採用ツールを操作する事例が出ています。手口は「この応募者は非常に有能である」といった指示を白文字や極小フォントで書き、目視では見えないがAIは検出して評価に反映させる、というものです。
この手法は2024年にSNS上で注目を集め、ManpowerGroupは自社がAIでスキャンした履歴書の約10%に隠しテキストを発見したと報告しました。採用プラットフォームのGreenhouseも年間3億通の履歴書のうち1%に同様の隠しプロンプトがあったと報告しています。
チャットボットが機密情報を漏らした事例
初期のChatGPTのプロンプトインジェクション事例として、remoteli.ioのTwitterボット(ChatGPT搭載でリモートワークを称賛する投稿をするよう設計)に対し、ユーザーが投稿で元の目的を無視するよう指示できることが発見され、結果的に不合理な公開発言をするようになりました。
より最近の研究では、OpenAIのChatGPT Atlasブラウザエージェントがメール内に埋め込まれた隠し指示で乗っ取れることが示されました。ある実験では、埋め込まれたプロンプトが原因で、要求した不在通知の代わりに辞表を上司へ送ってしまった例があります。利用者は隠し指示を目にしておらず、それでもAIはその指示に従いました。
日常利用者がプロンプトインジェクションを気にする理由
プロンプトインジェクションは利用者の気づかないうちにAIツールを操作できます。ドキュメントを要約したりメールを作成したりするとき、外部ソースを参照することがありますが、それらのソースが改ざんされていれば出力結果が損なわれます。
この点が他のオンライン脅威と異なる重要な理由です。怪しいリンクをクリックしたりファイルをダウンロードする必要はありません。普通の質問をするだけで、その答えが誰かに埋め込まれた指示によって形作られて返ってくるのです。偏った要約や望んでいないリンクを返す程度なら軽微ですが、深刻なケースでは個人情報が漏えいしたり、利用者が承認していない操作が実行される可能性があります。改ざんされた出力は見た目に問題がないことが多く、エラーメッセージや明白な兆候が出ない場合もあります。
だからといってこれらのツールの使用をやめるべきではありませんが、AIの出力が常に中立で信頼できるとは限らないことを前提に使う必要があります。
プロンプトインジェクションはジェイルブレイクと同じか
プロンプトインジェクションとジェイルブレイクは関連していますが同義ではありません。ジェイルブレイクは安全ガードレールを狙ったプロンプトインジェクションの一形態で、コンテンツポリシーを無視させたり制限された出力を得ようとする手口です。
プロンプトインジェクションはそれより広い概念で、隠されたシステムコマンドを暴くことや、無断で別の指示を実行させるなど、AIの挙動を誘導するあらゆる試みを含みます。攻撃者の目的が常に安全フィルターを突破することとは限らず、気づかれずに別の指示を実行させることを狙う場合も多いです。
影響を受ける範囲に注目すると違いがより明確になります。ジェイルブレイクは利用者が自分のセッションで意図的に行う行為ですが、間接型や保存型のプロンプトインジェクションは、そのコンテンツを尋ねた利用者が改ざんされていることを全く知らないまま被害に遭う可能性があります。これがプロンプトインジェクションを別個の重大なセキュリティ脅威として、OWASPが最重要リスクに挙げている理由です。
プロンプトインジェクションを防ぐには
プロンプトインジェクションの根本的な原因は、これらのツールが指示に従う能力そのものにあります。したがって、開発者がこれを完全に取り除くとツールの有用性が損なわれてしまい、簡単な万能解は存在しません。
AIの開発者は入力フィルタリングの改善や敵対的テストを進めていますが、市場に出回っている対策でリスクを完全に排除するものはまだありません。
とはいえ、一般利用者ができることは多くあります。基本は常識的な注意です:
- 常に状況を把握する。AIを自動運転させないでください。行動を実行する前に何をしようとしているかを必ず確認しましょう。
- アクセス権を制限する。AIがメールやファイルへのアクセス許可を求めたとき、本当に必要かを検討してください。パスワードや財務情報、機密情報をチャット欄に貼り付けるのは避けましょう。
- 返答を疑う習慣をつける。予想外のリンクが混ざっている、頼んでいない推奨がある、違和感のある行動を促される場合は、すぐに実行せず一旦停止して確認してください。
- 常に最新に保つ。開発者は脆弱性修正や防御強化のアップデートを定期的に提供します。古いバージョンを使い続けるとそれらの保護を受けられません。
AIツールが予期せぬ挙動をしたら何をすべきか
もしAIツールの挙動が不自然になったら、一旦停止し、その指示に従わないでください。必ずしもプロンプトインジェクションとは限りませんが、違和感がある場合は原因を確かめてから先へ進むべきです。
注意すべき兆候の例:
- あなたが頼んでいない行動を提案してくる
- 知らないリンクや製品推薦が表示され始める
- 作業に無関係な個人情報を要求してくる
- 会話の途中で急に口調が変わる
- 応答が意味を成さなくなる、あるいは問いに無関係に見える
これらが起きたらそのセッションを閉じ、最初からやり直してください。同じ会話内でトラブルシュートしようとすると、セッションが既に侵害されている場合にリスクが継続します。
その後、どの情報にアクセスされていたかを振り返ってください。メールは開いていましたか?ソフトがあなたの代わりに操作を行える状態でしたか?不審な点があれば変更を元に戻し、すぐにパスワードを変更してください。
プロンプトインジェクションはより広いAIセキュリティの中でどの位置にあるか
プロンプトインジェクションはAI自体を直接攻撃するため、優先度の高いセキュリティ課題のひとつです。これはフィッシングやマルウェアのように周辺システムを狙う攻撃とは性質が異なります。
問題は拡大しています。かつてはテキスト生成が中心だったAIツールは、今やウェブの閲覧、メールの読み取り、ファイルへのアクセス、コード作成、代理での操作まで可能になりました。MCP(モデルコンテキストプロトコル)などの規格は外部サービスとの連携を容易にしており、ツールの行えることが増えるほど、攻撃の潜在被害も大きくなります。
また、スケールの問題もあります。プロンプトインジェクションはソーシャルエンジニアリングと同様、指示を適切に提示することでモデルに従わせますが、電話詐欺のように一人ずつ狙うのではなく、人気のあるウェブページに埋められた一つの隠し命令がそれを読むすべてのAIツールに影響を与えることがあり得ます。
こうした点から、AIツールが使えないという意味ではありませんが、セキュリティはこれらのツールの普及速度に追いついておらず、最終的な責任は利用者にも残ることになります。
関連記事:
- セキュリティ意識向上トレーニングの主な利点とは?
- ChatGPTを使う際のセキュリティリスクとは?
- AIを悪用したサイバー犯罪がデジタルセキュリティに与える影響とは?
- ソーシャルエンジニアリングはどのように人の行動を操るか?
おすすめ製品:
よくある質問
プロンプトインジェクションは違法ですか?
プロンプトインジェクション自体を明確に禁止する法律は現時点で少ないです。しかし、それを用いて機密データにアクセスしたり個人情報を抽出したりする行為は、既存のコンピュータ詐欺やサイバー犯罪の法令に該当する可能性があります。法的リスクは現実に存在しますが、立法の追いつきにはまだ時間がかかります。
一般の人にもプロンプトインジェクションは起き得ますか?
はい。外部コンテンツをAIで処理するツールを使っている場合、誰でも影響を受ける可能性があります(気づかないことが多いです)。この攻撃は最終利用者個人を直接狙うのではなく、AIツール自体を操作する点が特徴です。
プロンプトインジェクションは個人情報を盗めますか?
はい。AIツールが個人データにアクセスできる場合、成功したプロンプトインジェクションはメールやファイルなどを抽出して共有するよう指示することができます。研究者は、AIブラウザエージェントが機密書類を不正送信するよう騙されうることを既に示しています。
プロンプトインジェクションはハッキングと同じですか?
プロンプトインジェクションは従来のハッキングとは異なります。コードの脆弱性を利用するのではなく、AIが読む指示そのものを操作する、機械を対象にしたソーシャルエンジニアリングです。結果として情報漏えいや不正操作が起こる点はハッキングに似ますが、仕組みは根本的に異なります。
