大模型安全围栏(守元)

智驭前沿铸屏障,守元固栏护乾坤

大模型与智能体自身安全围栏构建,运用智能检测、策略编排与持续进化能力,为企业大模型应用提供全链路安全防护。

核心功能

守元核心功能

内容安全过滤

安全围栏的基础与核心功能,充当模型的“防护闸门”,对输入输出内容进行实时检测,识别违规、敏感或高风险内容并进行拦截。

信息泄露防护

实时检测输入输出中的敏感信息,如身份证号、手机号、密钥、客户数据等,防止企业核心信息在模型交互中泄露。

合规与审计追踪

记录用户与模型的交互日志,包括原始输入、模型输出、命中策略与处置动作,满足安全审计与合规追踪需求。

策略自定义

管理员无需修改代码,可根据自身业务及行业规范自定义安全策略、敏感词库、处置动作与检测流程。

技术亮点
流式异步检测

流式异步检测

“守元”采用流式异步检测技术:在大模型生成 Token 流并进行分发的同时,实时复制至安全检测引擎进行动态研判。一旦识别风险,立即触发告警或拦截。在实时对话、代码生成、内容创作等高交互场景中,用户可获得即时流畅的体验。

多模型混合检测

多模型混合检测

“守元”内置大小模型混合检测体系。用户输入或模型输出优先匹配黑白名单、敏感词库及安全规则;未命中则进入混合检测阶段,由多个专业模型交叉验证后综合处置。此外,“守元”还包含大模型攻击行为识别、NER 实体识别、黑名单识别等模型,通过 DAG 图编排防护能力,构建协同联动的智能防御矩阵。

数据飞轮自进化

数据飞轮自进化

整合“矛”——长亭大模型安全评估服务,与“盾”——大模型安全围栏能力,依托模型测试全流程的数据互通,有效识别运行中的错误拦截与错误放行,实现“守元”模型在客户落地环境中的持续更新。凭借自我适配与持续进化能力,“守元”在不同客户场景下使用越久,越能形成适配该场景的专有大模型安全防护能力。

智能体风险认知

智能体风险认知

随着 AI Agent 技术普及,Agent 可自主决策并调用外部工具,从而暴露工具误用、越权操作、异常“多跳”推理等导致的新型风险。长亭科技自研智能体风险框架,将风险链路系统拆解为用户输入、基础模型调用、工具调用、外部服务调用四个关键环节。同时定义了任务意图劫持、不安全工具调用等 10 类智能体专属风险,通过对多链路交互数据的深度分析,实现有效的安全诊断。

适用风险场景

1

训练预埋

若训练数据混入未经过滤的违规内容与虚假信息,大模型可能将其吸收并固化至底层参数,导致模型“价值观中毒”或“事实污染”。即便在正常指令下,模型也可能稳定输出偏见、错误或有害内容,形成源头性合规风险。

2

推理失控

大模型在推理过程中,因语义理解偏差或对特定场景规则的认知缺失,可能生成包含违规观点或敏感信息的内容。此类输出突破业务安全与合规边界,构成实质性风险。

3

模型越狱

攻击者通过隐喻、谐音、多轮诱导等方式,绕过模型的过滤系统、道德规范或安全限制,诱使模型生成有害或违反伦理规范的回应。

4

演化滞后

新兴违规表述(如网络新梗、变种违禁词)的迭代速度快于内容安全策略的更新,导致对新型风险的识别显著滞后,对内容安全构成风险。

价值收益

检测效果优异

检测效果优异

采用规则、小模型与大模型相结合的多重检测机制,由技术专家持续训练与交叉验证,从多维度、深层次确保检测效果达到较高水平,为用户提供高效可靠的检测服务。

模型编排灵活

模型编排灵活

支持通过有向无环图(DAG)对防护模块进行编排。用户可根据业务场景和实际需求,灵活选择检测模型,自由编排检测能力,实现个性化、定制化的检测方案,满足多样化安全防护需求。

多模态检测

多模态检测

拥有丰富的多模态模型,支持文本、图片、音视频等多种内容格式的检测,实现多维度内容安全把控。同时支持调用多厂商基础模型,为用户提供灵活、适配的检测选择。

支持定制模型开发

支持定制模型开发

依托专业研发与算法团队,能够根据不同行业客户的业务数据特点与合规标准,量身定制模型训练方案,助力客户打造专属检测模型,满足特定业务场景下的个性化检测需求。

长亭已为超过 4000 家客户提供卓越的安全服务

即刻行动,与长亭安全专家一同开启智能安全之旅!