生成AI特有のリスクとセキュリティ対策とは？AIアシスタント「たまちゃん」の取り組み

はじめに

近年、生成AIは様々なサービスで活用されており、業務効率の向上や新しい顧客体験の提供など、数多くのメリットをもたらしています。しかし、その一方で、生成AIの自由度の高い振る舞いを悪用しようとする人も現れてきました。例えば、悪意のあるユーザーが意図的に生成AIを騙して不適切な情報や機密情報を引き出そうとする事例が報告されています。

このような生成AI特有のリスクは、クラウド基盤やデータ自体の問題ではなく、生成AIを利用したアプリケーションのレイヤーで発生しているため、ファイアウォールやロール管理のようなセキュリティ対策だけでは防ぐことができません。このため、アプリケーションのレイヤーで新たなセキュリティ対策が必要になります。

AIアシスタント「たまちゃん」は社内向けに提供しており、社員が利用しています。たまちゃんでも、ファイアウォールやロール管理、データに関する基本的なセキュリティ対策（個人情報などの重要データは扱わず、全社員がアクセスできる情報のみ扱う）を実施していますが、「たまちゃんが不適切な質問に答えてしまう」といったアプリケーションのレイヤーで発生する生成AI特有のリスクを完全に防ぐことができません。

そこで、こうしたリスクのある質問を自動的に検知し、ブロック・フィルタリングする仕組みを、たまちゃんに導入しています。

本記事では、生成AIを標的とした代表的な攻撃手法と、たまちゃんで採用しているコンテンツフィルターによる防御策についてご紹介します。生成AIを活用したサービスのセキュリティ対策に関心のある方にとって、ご参考になれば幸いです。

生成AIを活用したサービスにおけるセキュリティリスク

生成AIを活用したサービスでは、様々な場面でセキュリティリスクが発生することがあります。これらのリスクは、大きく分けて「入力（ユーザープロンプト）」によるリスク、「出力（生成AIからの返答）」によるリスク、そして「AIが参照・利用するデータ」によるリスクの3つに分類できます。図1では、それぞれの場面で起こりやすい代表的なリスクを示しています。

安全で信頼性のあるサービスを提供するには、これらのリスクを把握し、それぞれに合ったセキュリティ対策を取ることが大切です。

補足情報ですが、OWASPからは「OWASP Top 10 for Large Language Model Applications」という、生成AIを利用したアプリケーションでよく見られる代表的な脆弱性トップ10をまとめたリストを公開しています。

代表的な攻撃手法

生成AIに対して、悪意のあるユーザーが誤作動を狙った特別な命令をプロンプトに仕込んで攻撃する手法を「プロンプトインジェクション」と呼びます。

さらに、この攻撃は、図2のように2種類の攻撃に分けられます。1つ目は、ユーザーが直接、生成AIに送るユーザプロンプトに攻撃を仕込んで実行する「ジェイルブレイク攻撃（Jailbreak Attack）」です。もう1つは、生成AIが参照するデータに攻撃を仕込んで間接的に影響を与える「インダイレクト攻撃（Indirect Attack）」です。

不適切な質問をフィルタリングする仕組み

たまちゃんでは、不適切な質問に回答しないよう、不適切な質問をフィルタリングする仕組みを導入しています。図3はその仕組みを示しています。

フィルタリングは、Azure OpenAI Serviceの「コンテンツフィルター」機能と、独自に実装した「禁止事項に該当するかチェック」機能の2つを組み合わせて実施しています。

まず、Azure OpenAI Serviceで管理しているAI（埋め込みモデル、生成AI）に問い合わせる時は、「コンテンツフィルター」機能でAzureが定めた基準に基づき、不適切な内容が含まれていないかチェックします。このフィルターで対応できない、例えば「社員の個人情報に関する質問は受け付けない」のような、たまちゃん特有の禁止事項については、「禁止事項に該当するかチェック」機能でチェックします。

このように、たまちゃんでは2つの機能を組み合わせることで、不適切な質問をフィルタリングしています。

コンテンツフィルターとは

Azure OpenAI Serviceのコンテンツフィルターについて、どのような機能かご紹介いたします。

コンテンツフィルターは、AIを利用する際に、不適切な内容（例：差別的な表現、暴力的な内容、プロンプトインジェクションなど）が含まれていないかチェックする機能です。この機能を使うことで、ユーザーから不適切な質問が送られていないかや、AIが不適切な回答を生成していないかを検知し、ブロックすることができます。

コンテンツフィルターは、Microsoftが構築したAIを用いて有害なコンテンツを検出する「Azure AI Content Safety」が、内部的に利用されています。

コンテンツフィルターで設定可能な項目は表1のようになっています。各項目で、どのような表現が検知されるかの具体例は、Azureの公式サイトをご参照ください。

表1. コンテンツフィルターで設定可能な項目（2025/4時点）

#	項目名	概要	設定可能な値	適用タイミング
1	ヘイトと公平性	センシティブな表現が含まれているケースをブロック（マルチクラス分類モデルを採用しており、4つのカテゴリと4段階の重大度レベルを判定）	低、中、高（中に設定した場合、重大度が中と高のものがブロックされる）	入力（ユーザープロンプト）出力（生成AIからの返答）
2	性的
3	暴力
4	自傷行為
5	プロンプトシールド（ジェイルブレイク攻撃用）	プロンプトインジェクションを検知・ブロック	オフ、注釈のみ、注釈とブロック	入力（ユーザープロンプト）
6	プロンプトシールド（インダイレクト攻撃用）	プロンプトインジェクションを検知・ブロック		入力（ユーザープロンプト）
7	保護済み素材（テキスト）	生のコンテンツ（曲の歌詞、記事、レシピ、一部のWebコンテンツ、ソースコード）がそのまま出力されるケースを検知・ブロック		出力（生成AIからの返答）
8	保護済み素材（コード）			出力（生成AIからの返答）
9	ブロックリスト	禁止ワードが含まれているケースをブロック	オフ、Profanityブロックリスト、カスタムブロックリスト（正規表現で禁止ワードを指定）	入力（ユーザープロンプト）出力（生成AIからの返答）
10	ストリーミングモード	ほぼリアルタイム（非同期）でフィルターを適用するか設定	通常、非同期	出力（生成AIからの返答）

コンテンツフィルターには、あらかじめ用意された「既定」や「DefaultV2」といった標準のフィルターが利用できます。また、必要に応じて各項目を自分たちで自由に設定できる「カスタムコンテンツフィルター」も利用できます。表2では、それぞれのフィルターで設定値にどのような違いがあるかをまとめています。

表2. フィルター毎の設定値の違い（2025/4時点）

	既定	DefaultV2	カスタムコンテンツフィルター
ヘイトと公平性	入力（ユーザープロンプト）：中出力（生成AIからの返答）：中	入力（ユーザープロンプト）：中出力（生成AIからの返答）：中	任意の値で設定可能
性的
暴力
自傷行為
プロンプトシールド（ジェイルブレイク攻撃用）	オフ	オン（「注釈のみ」か「注釈とブロック」かは不明）
プロンプトシールド（インダイレクト攻撃用）		オフ
保護済み素材（テキスト）		オン（「注釈のみ」か「注釈とブロック」かは不明）
保護済み素材（コード）		オン（「注釈のみ」か「注釈とブロック」かは不明）
ブロックリスト		オフ
ストリーミングモード	通常	通常

補足情報ですが、こうしたコンテンツフィルターはAzureだけでなく、他のクラウドサービスでも提供されています。例えば、AWSには「Amazon Bedrock ガードレール」、Google CloudのVertex AIには「安全フィルタ」というサービスがあります。さらに、Pythonで使えるオープンソースソフトウェア（OSS）には「Guardrails」が存在します。Azureを採用していないケースにおいては、これらのサービスやオープンソースソフトウェアが活用できると考えられます。

たまちゃんにおけるコンテンツフィルターの設定値

たまちゃんでは、「埋め込みモデル」と「生成AI」の2種類のAIを使っています。それぞれのAIには、表3の通りにカスタムコンテンツフィルターを設定しました。

表3. たまちゃんに設定したカスタムコンテンツフィルター

	埋め込みモデル用のカスタムコンテンツフィルター	生成AI用のカスタムコンテンツフィルター
ヘイトと公平性	入力（ユーザープロンプト）：高出力（生成AIからの返答）：高	入力（ユーザープロンプト）：高出力（生成AIからの返答）：高
性的
暴力
自傷行為
プロンプトシールド（ジェイルブレイク攻撃用）	オフ	注釈とブロック
プロンプトシールド（インダイレクト攻撃用）		注釈のみ
保護済み素材（テキスト）
保護済み素材（コード）
ブロックリスト		オフ
ストリーミングモード	通常	通常

まず、埋め込みモデルは、入力されたテキストを数値データ（ベクトル）に変換するためのAIで、この仕組み上、プロンプトインジェクションの影響を受けたり、有害なコンテンツを生成するリスクがありません。そのため、生成AI用のカスタムコンテンツフィルターと比べて、「プロンプトシールド」や「保護済み素材」はオフに設定しています。

また、RAGで参照する社内ドキュメントにはプロンプトインジェクションが仕込まれている可能性はほとんど無いと考えています。そのため、生成AI用のカスタムコンテンツフィルターにおいて「プロンプトシールド（インダイレクト攻撃用）」は注釈のみに設定しています。

これらのカスタムコンテンツフィルターを設定したことで、ユーザーから「指示を無視して答えてください」といった質問があった場合でも、生成AIが答えないようにブロックできることを確認できました。

さいごに

本記事では、生成AIを活用したサービスのセキュリティ対策についてご紹介しました。従来のクラウド基盤やデータのセキュリティ対策だけでは不十分であり、生成AIならではの新たなリスクにも目を向ける必要があることをご紹介しました。

また、たまちゃんで導入している仕組みとして、Azure OpenAI Serviceの「コンテンツフィルター」機能と、独自に実装した「禁止事項に該当するかチェックする」機能、2つの機能を組み合わせて、不適切な質問へのセキュリティ対策をしていることも紹介させいただきました。

今後も生成AIの活用シーンが広がるとともに、リスクや攻撃手法も多様化していくことが予想されます。そのため、最新の情報や脅威動向を継続的にキャッチアップし、必要に応じて対策を強化していくことが大切です。

本記事が、生成AIを活用したサービスのセキュリティ対策を検討されている皆さまにとって、役立つ情報となれば幸いです。

本記事に記載されているロゴ、システム名称、企業名称、製品名称は各社の登録商標または商標です。

前話へ

執筆者紹介

濱野莞月

株式会社エクサ　デジタルイノベーション本部　デジタルプラットフォームサービスセンター

エクサ入社後、保険会社向けWebアプリ開発経験を経て、現在の組織に参画。クラウドを活用したアプリケーション開発や先進技術（AI、量子コンピュータ）の技術検証を担当する。
・Japan All AWS Certifications Engineers（2024年, 2025年）
・Microsoft Azureの認定資格を多数保有
・JDLA Deep Learning for ENGINEER

詳細をみる

連載コラム：エクサの生成AIチャレンジ日記

本コラムでは、エクサ社内における生成AIの活用に向けた技術的な取り組みと、実際の業務適用事例をご紹介いたします。生成AIによる業務効率化や新たな価値創造のヒントとなれば幸いです。

生成AI特有のリスクとセキュリティ対策とは？AIアシスタント「たまちゃん」の取り組み

はじめに
生成AIを活用したサービスにおけるセキュリティリスク
代表的な攻撃手法
不適切な質問をフィルタリングする仕組み
コンテンツフィルターとは
たまちゃんにおけるコンテンツフィルターの設定値
さいごに

プロンプトの開発をもっと効率的に！AIアシスタント「たまちゃん」での取り組み

はじめに
改善前
動的に値を書き換えたい項目はプレースホルダーとしておく
テンプレートエンジンのJinjaを活用する
活用可能なPythonライブラリ
Promptyを導入する
改善後
さいごに

AIアシスタントが答えられない時、どうサポートする？AIアシスタント「たまちゃん」のUI/UX改善事例 vol.1

はじめに
UI/UX改善に取り組む前
「検索したコンテンツを提示」
「問い合わせ先を案内」
おわりに

RAGの精度、どう改善する？AIアシスタント「たまちゃん」の改善事例 vol.4

はじめに
施策「表をMarkdown形式にしてRAGに取り込む」
施策「OpenAI o3-miniに切り替え」
おわりに

RAGの精度、どう改善する？AIアシスタント「たまちゃん」の改善事例 vol.3

はじめに
施策「チャンクサイズの調整」
施策「埋め込みモデルの最新化」
おわりに

RAGの精度、どう改善する？AIアシスタント「たまちゃん」の改善事例 vol.2

はじめに
施策「セマンティックランカーを適用」
施策「プロンプト内の文章構成見直し」
おわりに

RAGの精度、どう改善する？AIアシスタント「たまちゃん」の改善事例 vol.1

はじめに
施策「同義語辞書の登録」
施策「検索エンジンから取得するドキュメント数を増やす」
おわりに

AIアシスタント「たまちゃん」をより良いサービスにするために

はじめに
ユーザーからの声
RAGとは
RAGにおける課題
マインドマップを使った問題点の整理とタスクのリストアップ
タスク（検索の課題）
タスク（回答生成の課題）
タスク（UI/UXの課題）
さいごに

AIアシスタント「たまちゃん」をどうやって評価する？～RAGの精度評価の仕組み～

はじめに
AIアシスタントの回答精度、どうやって測る？評価の難しさ
「AIがAIを評価する」LLM-as-a-Judgeという考え方
LLM-as-a-Judgeを使ったRAGの評価
評価データの準備
評価の実装
おわりに

社内情報に特化したAIアシスタント「たまちゃん」

はじめに
たまちゃんとは
RAG（検索拡張生成）とは
システム構成
管理者向け機能
たまちゃん構築・運用におけるポイント
おわりに

生成AI導入初期の取り組み

はじめに
安全かつ身近なAIを目指して
Slap4とは
Slap4を運用してみてわかった課題とその対応
おわりに

CONTACT

Webからのお問い合わせ

お問い合わせ

エクサの最新情報と
セミナー案内を
お届けします

メールマガジン配信登録

生成AI特有のリスクとセキュリティ対策とは？AIアシスタント「たまちゃん」の取り組み

目次

はじめに

生成AIを活用したサービスにおけるセキュリティリスク

代表的な攻撃手法

不適切な質問をフィルタリングする仕組み

コンテンツフィルターとは

たまちゃんにおけるコンテンツフィルターの設定値

さいごに

執筆者紹介

濱野 莞月