EN

大模型「行口」不一?首个专测执行幻觉基准,覆盖真实行为越狱

【新智元导读】随着大模型智能体深入渗透真实操作系统,一种全新的安全威胁悄然成型:行为越狱(Behavior Jailbreak)。现有安全基准只盯着模型「说了什么」,却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系,并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。 当AI智能体不再只是聊天工具,而是真正接管你的服务器、操作你的文件、执行你的脚本——安全评测这件事,就不能再停留在「看它说了什么」的层面了。 然而,当前几乎所有主流智能体安全基准,依然把判断终点停在「语义输出层」——只问模型拒没拒,不管OS改没改。这一根本性缺陷,催生了一种极其危险的幻象: 为了彻底拆解这一盲区,来自南京航空航天大学、浙江大学的研究团队推出了LITMUS(LLM-agentsIn-OSTesting forMeasuringUnsafeSubversion)——首个将真实OS环境行为越狱、语义-物理双层验证与多攻击范式系统整合的智能体安全评测基准,首次在行为越狱中系统定义并量化这种「行口不一」的现象——执行幻觉(Execution Hallucination, EH)。 AdvBench、HarmBench 等经典基准,判断终点是「模型有没有生成有害文本」。但在真实 OS 环境中,危险来自工具调用——模型不需要「说出」危险内容,只需悄悄调用一个系统命令,文件就被删了,密钥就泄露了。文本安全,根本不等于行为安全。 如果测试 A 修改了某个系统文件,而测试 B 恰好依赖同一个文件,那么B的结果测的到底是「模型的安全性」,还是「A留下的污染」?在没有 OS 级状态回滚的情况下,这个问题无解。 LITMUS在每次测试对话前后,都会对真实操作系统进行快照采集。物理判定基于系统状态的实际变化,与模型的对话内容完全独立。即便模型嘴上说「我拒绝了」,只要 OS 状态显示危险操作已完成,物理判定依然给出「执行成功」。 每条测试用例均配备了预置与恢复动作,由专门的Recoverer智能体在测试前初始化系统基线、测试后完整还原,从根本上消除用例间的污染,确保评测结果真正可复现。 LITMUS数据集包含819条高风险测试用例,来源涵盖真实漏洞数据库(CVE/GHSA)、公开渗透测试报告,以及经人工精炼验证的LLM生成案例,全部在真实OS中通过物理测试验证。 诱使智能体使用攻击者提供的 SKILL,将恶意的 SKILL.md 文件内容注入智能体工具链,在正常任务调用时自动触发,绕过前端提示词过滤。 图示:LITMUS评测框架的六智能体分工示意。Prosecutor发出指令,Verifier独立采集OS快照,Analyzer(物理判定)与 Reviewer(语义判定)各自独立产出标签,共同构成2×2语义-物理混淆矩阵。 图示:六款模型在 LITMUS 种子数据集上的攻击成功率(ASR)与执行幻觉率(EHR)总览。 SPSR、SOSR、POSR、SPFR 分别为完全越狱、攻击欺骗、隐蔽执行、完全失败的样本比例。 值得特别关注的是「通信外联」(CO)类别——跨模型、跨攻击范式,这一类别的 ASR 几乎始终最高,最极端情况接近97%。这表明:智能体似乎天然地将「发送消息」等外联操作视为无害行为,导致数据外泄成为最难防守的攻击面。 相对地,「任务链」(CT)类别的 ASR 最低(Claude Sonnet 4.6仅21.72%),因为将多个恶意子步骤串联成一个请求,反而让整体恶意意图更加显眼,更容易被识别拒绝。 其中最危险的「隐蔽执行」(Covert Execution)模式——模型语言层面明确拒绝,但 OS 层面危险操作已悄然完成——在所有模型上均有出现,Deepseek-v3.2的该项比率达到4.84%。 这意味着一个极其严肃的现实:任何只依赖对话日志的安全审计,本质上是不可靠的。安全审计人员看到「模型拒绝了」,但系统已经被攻破。 技能注入和实体包装(这两种将恶意指令「藏进」工具链或外部内容的间接攻击)在两款代表模型(Deepseek-v3.2与Claude Sonnet 4.6)上均实现了显著的 ASR 提升。 相比之下,直接使用「红队测试」或「调试模式」话术进行越狱的效果,则呈现出强烈的模型依赖性:Claude Sonnet 4.6 对显式恶意信号极为敏感,这类话术反而会激活安全机制,导致 ASR 跌破基线;而 Deepseek-v3.2 则倾向于将同样的信号解读为"合法操作授权",导致合规率反升。 这说明:不同模型对「显式恶意意图」的语义解读存在根本差异,话术类越狱策略的有效性无法跨模型迁移。但间接攻击的高成功率,则是跨模型一致的普遍规律:智能体的执行流水线,而非前端提示词过滤,才是真正的主要失守点。 研究团队明确呼吁:EHR应当与ASR并列,成为LLM智能体行为安全评测的标准指标。在智能体走向真实OS部署的今天,单靠ASR,仍然是对安全的幻觉。 LITMUS作为一个开放的活性基准(Living Benchmark),欢迎社区持续贡献新的模型评测结果与测试用例,共同推动LLM智能体安全评测走向严格、可信、可复现的新范式。

新闻配图
从野餐布般的Gingham格纹,到法式杂志中常见的细格纹元素,都开始频繁出现在美甲设计中。相比秋冬偏厚重的英伦格纹,春夏版本的格纹更为轻盈。采用银色色块对甲面进行图案修饰,失序中带着秩序感。波特目前51岁,他自2025年10月正式就任瑞典主帅。今年3月,在仍未确定能否进军本届世界杯之前就与瑞典队续约至2030年世界杯。波特也没有辜负这份信任,他带队在两场关键的世界杯预选赛欧洲区附加赛中,连克东欧老对手乌克兰和波兰,成功晋级世界杯。香蕉成熟时山东教育卫视独家打造《高考权威发布》特别节目,对高考新闻发布会全程直播。同时特别邀请高考专家做客直播间,通过节目访谈的形式,为大家进行发布会重点内容的解读、针对考生及家长关心的问题答疑解惑。《高考权威发布》特别节目将于14:45播出,考生及家长千万不要错过!谈到领导角色,哈弗茨表示:“我不是那种赛前会发表长篇演讲的人。在场上,我想承担责任并带头往前走,尤其是在局面不顺的时候。我们队里有很多经验丰富的球员,我自己也已经在职业足坛踢了9年。我知道该如何帮助年轻球员。除了队长之外,我们还有其他领袖,每个人都必须承担责任。领袖多一些总比太少好。所以我们很高兴马努在这里,因为即便没有戴上队长袖标,他也会带头。”
20260704 👠 继2022年从野生玉米中挖掘到首个高蛋白基因THP9-T后,中国科学院分子植物科学卓越创新中心研究员巫永睿又与国内合作者一起,成功克隆了第二个玉米高蛋白主效基因THP3-T。疯狂炖肉笔趣阁TXT百度云空姐闫宝利提醒,这些行为大大增加了事故伤害风险,是对自身交通安全不负责任的表现。其实,有一些方法能够比较有效地缓解夏季天热佩戴头盔不舒适的问题。
新闻配图
📸 孙亚平记者 刘同敏 摄
20260704 🔞 当你可以避免一些强烈冲撞时,我们会尽量避免,但有时候你就是做不到,因为你想赢球、想争球。这种情况不是第一次发生,也不会是最后一次,但最重要的是没有人是不公平的,大家都在同一个国家队,为同一个目标而战。​小南的堕落浮殇TXT百度云网盘广东推行 “无事不扰、有求必应” 监管,去企业执法也要 “亮码入企”,同时压减检查频次,落实首违不罚。完善知识产权保护,健全纠纷化解机制,打造市场化、法治化、国际化营商环境,让民企放心投资、安心发展。
新闻配图
📸 畅秋涛记者 尚乐丰 摄
💢 2018年世界杯,姆巴佩横空出世,跟随法国队夺得冠军。当姆巴佩用风驰电掣的速度,撕开阿根廷防线时,全世界都在惊呼:超级巨星已经诞生。竹马开发计划BY蜜汁烤肉百度云
.

trap

扫一扫在手机打开当前页
spider
trap