大模型安全围栏（守元）

智驭前沿铸屏障，守元固栏护乾坤

大模型与智能体自身安全围栏构建，运用智能融合防护技术，拦截新型攻击，防数据泄露、模型篡改，致力于保障业务合规运行。

核心功能

内容安全过滤

安全围栏的基础与核心功能，充当模型的“防火墙”和“净化器”，可自动识别并过滤价值观偏离、暴力、色情、仇恨言论、歧视性语言等不良内容，致力于保障输出内容符合主流价值观与安全性要求。

信息泄露防护

检测输入输出中的敏感信息，如身份证号、银行账号、商业秘密等，防止“提示词注入”攻击导致的数据泄露。

合规与审计追踪

记录用户与模型的交互日志，包括原始输入、处理后的输入、模型原始输出、最终返回的输出以及触发的安全规则，为事后审计、责任追溯和模型优化提供详实的数据链条。

策略自定义

管理员无需修改代码，可根据自身业务及行业特点，通过图形化界面自定义安全规则，灵活编排检测模型，使其充分发挥作用。同时，系统可针对不同风险等级的内容，采取差异化的处置方式。

技术亮点

流式异步检测

“守元”采用流式异步检测技术：在大模型生成 Token 流并进行分发的同时，复制至安全检测引擎进行动态研判。一旦识别风险，将触发告警或拦截。在实时对话、代码生成、内容创作等高交互场景中，用户可获得流畅体验。

多模型混合检测

“守元”内置大小模型混合检测体系。用户输入或模型输出优先匹配黑白名单、敏感词库及安全规则；未命中则进入混合检测阶段，由多个专业模型交叉验证后综合处置。此外，“守元”还包含大模型攻击行为识别、NER 实体识别、黑名单识别等模型，通过 DAG 图编排防护能力，构建协同联动的智能防御矩阵。

数据飞轮自进化

整合“矛”——长亭大模型安全评估服务，与“盾”——大模型安全围栏能力，依托模型测试多流程的数据互通，有效识别运行中的错误拦截与错误放行，实现“守元”模型在客户落地环境中的持续更新。凭借自我适配与持续进化能力，“守元”在不同客户场景下使用越久，越能形成适配该场景的专有大模型安全防护能力。

智能体风险认知

随着 AI Agent 技术普及，Agent 可自主决策并调用外部工具，从而暴露工具误用、越权操作、异常“多跳”推理等导致的新型风险。长亭科技自研智能体风险框架，将风险链路系统拆解为用户输入、基础模型调用、工具调用、外部服务调用四个关键环节。同时定义了任务意图劫持、不安全工具调用等 10 类智能体专属风险，通过对多链路交互数据的深度分析，实现有效的安全诊断。

适用风险场景

训练预埋

若训练数据混入未经过滤的违规内容与虚假信息，大模型可能将其吸收并固化至底层参数，导致模型“价值观中毒”或“事实污染”。即便在正常指令下，模型也可能稳定输出偏见、错误或有害内容，形成源头性合规风险。

推理失控

大模型在推理过程中，因语义理解偏差或对特定场景规则的认知缺失，可能生成包含违规观点或敏感信息的内容。此类输出突破业务安全与合规边界，构成实质性风险。

模型越狱

攻击者通过隐喻、谐音、多轮诱导等方式，绕过模型的过滤系统、道德规范或安全限制，诱使模型生成有害或违反伦理规范的回应。

演化滞后

新兴违规表述（如网络新梗、变种违禁词）的迭代速度快于内容安全策略的更新，导致对新型风险的识别显著滞后，对内容安全构成风险。

价值收益

检测效果优异

采用规则、小模型与大模型相结合的多重检测机制，由技术专家持续训练与交叉验证，从多维度、深层次确保检测效果达到较高水平，为用户提供高效可靠的检测服务。

模型编排灵活

支持通过有向无环图（DAG）对防护模块进行编排。用户可根据业务场景和实际需求，灵活选择检测模型，自由编排检测能力，实现个性化、定制化的检测方案，满足多样化安全防护需求。

多模态检测

拥有丰富的多模态模型，支持文本、图片、音视频等多种内容格式的检测，实现多维度内容安全把控。同时支持调用多厂商基础模型，降低厂商限制，为用户提供灵活、适配的检测选择。

支持定制模型开发

依托专业研发与算法团队，能够根据不同行业客户的业务数据特点与合规标准，量身定制模型训练方案，助力客户打造专属检测模型，满足特定业务场景下的个性化检测需求。

长亭已为超过 5000 家客户提供卓越的安全服务

即刻行动，与长亭安全专家一同开启智能安全之旅！

安全评估平台

安全建设平台

代码安全

AI 护栏