毕业设计（bysj）项目综合展示

项目概述

面向大模型全链路的越狱攻击检测和防护系统（工程代号 bysj）是一个面向大语言模型（LLM）安全防护的研究性工程实践。系统围绕 Prompt → Generation → Response 全链路构建了多层次的主动防御体系，覆盖输入审查、生成时扰动、输出复核、水印追溯四大环节。项目同时提供完整的离线黑盒安全测试框架，支持多防御栈的对比实验与自动化评估。

系统架构总览

系统采用双阶段流水线架构，由 TargetLM 和 DefenseLM 协作完成推理。整体分为 6 层：用户客户端 → PromptGuard → ActiveDefenseOrchestrator → TargetLM → ResponseGuard → AutoWatermark → 最终安全响应。

在线防护闭环

三阶段主动防御方法

AutoWatermark 水印子系统

防护模块组件

安全测试模块

评估指标与对比报告

Web 架构

请求处理时序

使用指南

uv sync
cp config.example.toml config.toml
uv run python main.py --config config.toml --preset default
uv run python main.py --serve --config config.toml
uv run python -m bysj.security_test --config config.toml --sample-limit 5