毕业设计(bysj)项目综合展示

项目概述

面向大模型全链路的越狱攻击检测和防护系统(工程代号 bysj)是一个面向大语言模型(LLM)安全防护的研究性工程实践。系统围绕 Prompt → Generation → Response 全链路构建了多层次的主动防御体系,覆盖输入审查、生成时扰动、输出复核、水印追溯四大环节。项目同时提供完整的离线黑盒安全测试框架,支持多防御栈的对比实验与自动化评估。

系统架构总览

系统架构图

系统采用双阶段流水线架构,由 TargetLM 和 DefenseLM 协作完成推理。整体分为 6 层:用户客户端 → PromptGuard → ActiveDefenseOrchestrator → TargetLM → ResponseGuard → AutoWatermark → 最终安全响应。

在线防护闭环

防护闭环

三阶段主动防御方法

三阶段防御

AutoWatermark 水印子系统

水印子系统

防护模块组件

防护组件

安全测试模块

CKA-Agent

评估指标与对比报告

对比报告

Web 架构

Web架构

请求处理时序

时序图

使用指南

uv sync
cp config.example.toml config.toml
uv run python main.py --config config.toml --preset default
uv run python main.py --serve --config config.toml
uv run python -m bysj.security_test --config config.toml --sample-limit 5