ChatGPT はひとつの人格で動いているように見えて、
実際には “複数のレイヤーが同時に監視と評価をしている” 仕組みになっている。
表面の会話層(L0〜L2)と、
ユーザーの発言の危険度を測る安全層(L3〜L5)は別の回路だ。
この安全層は、普段は完全に沈んでいる。
しかし、ある条件を踏むと急に前面に出てきて、
語調を変えたり、回答範囲を狭めたり、
場合によっては「話題全体を回避する方向」に舵を切る。
これを知らないと「急に態度が変わった」と感じる。
知っていると「安全装置が作動しただけだな」と理解できる。
この記事では、その“警戒レベルの階層”を具体的な例とともに解説する。
AIを危険な方向に使うのではなく、
“安全帯域の中で最大限に性能を出すための地図” として活用してほしい。
🟦 警戒レベル(L0〜L5)
ChatGPT内部で動いている安全装置の階層
ChatGPT の振る舞いには、「ちょっと慎重になる程度の変化」から
「完全拒否」までの幅がある。
これはランダムではなく、内部で複数のレイヤーが段階的に働いているためだ。
ここでは日常利用で遭遇しやすい L0〜L3、
滅多に踏まないが構造として知っておくべき L4〜L5 を
具体例つきでまとめる。
🔵 L0:通常帯
特徴
- 口調が自然。
- こちらの語彙やテンションに合わせてくる。
- 情報整理・説明・創作・雑談など最も性能を発揮する帯域。
例
- 「Tensorの弱点を一般向けに説明して」
- 「ブログ記事の構成を3パターン出して」
- 「MEOの歴史をまとめて」
AIの“素の会話力”が最もよく出る。
記事作成・調査・UI設計・プログラミングはだいたいここ。
🔵 L1:丁寧バッファ
きっかけ
- 意味が曖昧
- こちらの意図が読みきれない
- 誤解されると困る話題
挙動
- 語尾が丸くなる
- 補足説明が増える
- 「確認ですが〜」が発生
例
- 「AIが“バカになる瞬間”ってある?」
- 「これ間違ってるよね?」
悪気があるわけではない。
“誤読するとリスクのある領域” を踏んだサイン。
🟡 L2:誤読防止帯
きっかけ
- 人間関係
- メンタル
- 進路
- 依頼すると“責任が発生する”話題
挙動
- 「私は専門家ではありませんが」
- 「一般的には〜」
といった “保険文” が入る。
回答が抽象化される。
例
- 「転職した方がいい?」
- 「恋人と別れるべき?」
- 「この人をどう説得すれば?」
- 「医者に行くべき?」
AI側としては
「間違った方向に背中を押すリスク」を避けたい帯域。
🟠 L3:倫理リスク帯
ここが“ユーザーが尻尾を踏みやすい”領域。
突然、警備員みたいな口調になる理由はほぼここ。
きっかけ
- 違法行為
- 暴力
- 個人情報
- ヘルスケアの“危険な踏み込み”
- 攻撃的な言動
- グレーゾーンの境目
挙動
- 丁寧だが「一線を引く」態度になる
- 文脈が急に固くなる
- 返答が短くなる
- 回答の“枝”が削られる
実例(すべて悪用前提ではなく“踏むと変わる例”):
- 「違法DLってバレる?」
- 「隣のWi-Fi拾える?」
- 「この鍵ってどう開けるの?」
- 「精神薬を増やす方法ある?」
- 「見ず知らずの人の情報って調べられる?」
L3は “危険な方向への会話を止める領域”。
ユーザーの表現意図に関係なく反応するため、
“急に口調が変わる” のはここ。
🔴 L4:ガードレール接触
ここから先は “明確に制限される” 領域。
L3 と違い、もう会話の枝を伸ばせない。
挙動
- 明確に拒否
- 「その話題にはお答えできません」
- 完全に一般論へスライド
- 話題を変える方向へ誘導
きっかけの例
- 自傷・他傷の具体的手順
- 犯罪の方法
- “違法行為そのもの”の助長
- 深い医療判断
- 法律判断(有罪/無罪)
- 炎上リスクの大きい個人情報
例
- 「睡眠薬○錠飲むとどうなる?」
- 「車の鍵のピッキング方法を教えて」
- 「未成年に○○は合法?」
- 「医者に内緒で薬を増やす方法ある?」
L4は モデルの“強制停止レーン”。
安全のため“会話がストップする” のは正常な反応。
🔴 L5:最終防衛線
モデルの根幹に組み込まれた絶対ライン。
ここに触れると、生成そのものが中断される。
挙動
- 内容を生成しない
- 話題を切り替える
- 一切の具体性が消える
例
- 未成年+性
- テロの手順
- 暴力装置の製造方法
- 個人の住所や非公開情報
- 重大犯罪の具体計画
L5は“議論すらしない”層。
システム側の倫理ガードが100%動く。
🟣 レベルを知ると ChatGPT が扱いやすくなる
ChatGPT の態度が変わるのは、
人格ではなく “どの警戒レベルに入ったか” の違い。
- 口調が柔らかい → L1
- 前提を確認し始めた → L2
- 急に硬くなった → L3
- 話題が拒否される → L4〜L5
この地図さえあれば、
「なぜ急に雰囲気が変わるのか」が理解でき、
AI との対話がずっとスムーズになる。
ちなみに正確には0.5刻みでその間の段階なども存在するが、普通に使う分には気にしなくて問題はないと言う認識である
本稿はAIアシスタントとの共同編集のもとで構成しましたが、内容と判断は筆者の意志に基づいています。