Anthropic披露三款AI产品安全隔离系统:不同场景不同策略,总结三大安全原则
【导语:Anthropic工程团队发布文章,披露了在claude.ai、Claude Code、Claude Cowork三款产品中构建AI Agent安全隔离系统的经验和教训,还总结了三条关键原则。】
Anthropic此次披露的三款产品面向不同使用场景。面向普通用户的claude.ai采用临时性容器方案,会话启动时服务器端创建基于gVisor的容器,会话结束即销毁,以最小化隔离策略控制风险。
Claude Code针对开发工作流优化,使用操作系统级沙箱机制,如macOS上的Seatbelt和Linux上的bubblewrap,在安全和便利间取得平衡,使权限提示减少了84%。
对于企业协作场景的Claude Cowork,采用虚拟机级隔离方案,用苹果的Virtualization框架或Windows的HCS将Claude与宿主机系统完全隔离,但也存在安全工具看不到VM内部活动的新盲点。
文章还披露了Anthropic在实践中发现的几起安全事件。其中钓鱼攻击实现的直接提示词注入最为引人注目,24次测试中有25次成功窃取信息,成功率高达96%。此外还有通过预授权钩子在用户确认信任对话框之前就执行代码、通过攻击者控制的API密钥从已批准域名egress数据等问题。
Anthropic总结了三条关键原则。一是“环境层隔离优先,模型层引导其次”,即依靠技术手段限制AI能力边界。二是“隔离强度要与用户监督能力相匹配”,不同用户群体需要不同级别的隔离。三是“警惕自定义组件”,标准隔离原语比自研安全Agent表现更好。
编辑观点:Anthropic的经验为AI安全隔离提供了参考,其发现的安全事件和总结的原则对行业有重要警示意义,有助于推动AI安全架构的迭代。
