Shield AI

Agent 4 — Security Gate Architecture

Two-Layer Defence

🪤Lobster Trap (Primary)

Pattern-based prompt injection detector. Scans every input for known injection signatures, adversarial payloads, and jailbreak attempts. Blocks and quarantines on match.

🧱Offline Detector (Fallback)

Heuristic classifier that runs when the Lobster Trap is unavailable or uncertain. Uses flag-based regex analysis to detect suspicious content without network dependency.

What triggers quarantine

💉Prompt injection — Instructions attempting to override AI behaviour

🎭Role override — Commands trying to change the AI's persona or permissions

🔓Policy bypass — Phrases designed to circumvent safety guardrails

🕵️Suspicious metadata — Zero-width / invisible characters hiding instructions

⚙️Decision manipulation — Content trying to force a specific approval outcome

Loading security data…