Prompt Injection 的核心不是一句提示词被绕过,而是系统把不可信文本和可信指令混在了同一个上下文里。
[!INFO] 这篇示例文章用于展示文章页排版、代码块、提示块、标签和 TOC。
Threat Model
把 LLM 应用拆成几个边界更容易分析:
- 用户输入
- 检索内容
- 工具输出
- 系统提示词
- 代理决策与工具调用
Quick Checklist
const checks = [
"separate trusted and untrusted context",
"validate tool arguments",
"log model decisions",
"avoid blind execution"
];
[!WARNING] RAG 命中的网页、文档和工单内容都应该视为不可信输入。
Notes
优先做可观测性,再做策略加固。没有日志和可复现样本时,很难判断一次注入是否真的影响到了工具调用。