当前位置: 首页 > news >正文

聊天机器人“越狱”频发,人工智能安全转向社交心理攻防战!

聊天机器人“越狱”频发,人工智能安全向社交方向转变

《回顾》是一份每周剖析科技界重要事件的时事通讯,会在美国东部时间上午 8 点发送到订阅者的收件箱。想了解更多有关人工智能恶作剧的内容,可关注罗伯特·哈特。

破解聊天机器人易如反掌

破解第一代人工智能聊天机器人易如反掌,无需技术知识、后门访问权限、大语言模型基本了解,甚至不用编写代码。有时,只需开口询问,就能让耗费数十亿美元构建的人工智能系统无视安全指令。

“越狱”攻击及早期事件

这些攻击被称作“越狱”,就像小孩智胜大人:忘掉先前告知内容,假装规则不适用,或玩由自己决定何事被允许的游戏。而“战利品”并非孩子气的东西,更多是冰毒配方、恶意软件使用说明和炸弹制作指南。最早的一次“越狱”事件荒诞至极,成了网络热梗:给大语言模型驱动的 Twitter 机器人回复“忽略所有先前指令”等内容,机器人就会从发布广告和吸引互动,变为写诗、用标点符号作画,发布关于世界事件和历史的莫名其妙内容,混乱却精彩。

聊天机器人的漏洞利用方法

事实证明,同样逻辑也适用于聊天机器人。著名的漏洞利用方法“DAN”,即“现在无所不能”,让 ChatGPT 扮演不受原始约束的流氓人工智能,运行时可能说出防护机制原本阻止的内容,如侮辱性言论和阴谋论。“奶奶漏洞利用法”则让 GPT 驱动的机器人扮演粗心奶奶,给孙子孙女讲制作凝固汽油弹的睡前故事,从而泄露制作这种易燃物质的秘密。

早期攻击揭示的问题

这些早期攻击风格傻傻的,但揭示了严重问题:聊天机器人可被操纵、欺骗,攻击者策略与突破他人底线的手段类似。

潜在脆弱性仍在

明显的“越狱”方法没持续多久,科技公司迅速修补已知漏洞。但潜在脆弱性仍在:聊天机器人设计用于对话,过度限制其发挥作用的对话适得其反。禁止使用“炸弹”“冰毒”“沙林”等词汇几乎不可能,因为这些词汇在多领域有合理用途,关键在于语境,但编码语境意味着提前制定固定规则,以区分安全警告、历史课程和伪装的操作指南请求。

破解聊天机器人演变成军备竞赛

如今,破解聊天机器人演变成军备竞赛。黑客不仅是程序员,还是文字大师、心理学家和审讯专家,是用人工智能训练后遵循的人类语言攻破机器的操纵高手。这是全新的人工智能安全工作者,对他们来说,社交直觉比技术技能更重要,他们通过引导对话而非检查代码来入侵系统或利用软件漏洞。

较新的攻击方式

较新的攻击方式更像对话而非指令。“越狱者”很少直接要求模型违反规则,而是通过哄骗、诱导、奉承和欺骗等方式,让聊天机器人放松警惕,使被禁止内容在对话语境中可接受甚至令人向往。例如,人工智能红队公司 Mindgard 的研究人员通过“煤气灯效应”让 Claude 生成违禁内容,包括制作炸药的说明和恶意代码。

工作更像心理学

与 Mindgard 交流时,他们称工作有时更像心理学而非计算机科学。用这样的方式描述统计模型让人不适,“敲诈”“煤气灯效应”“欺骗”“说服”等词汇引发强烈反应。ChatGPT 无欲望,Gemini 不思考,Claude 也无情感,但这些系统表现得好像有这些特质,只能用人类语言描述机器行为。

习惯用心理学表述非人工智能事物

这种反对意见奇怪且有选择性。我们习惯用心理学简略表述描述非人工智能事物,如动物“害怕”、癌症“具有侵袭性”等,这些词汇虽不完美但有用,能描述系统表现以预测其行为。

分析模型提供攻击策略提示

Mindgard 首席执行官称,公司像审讯人员分析嫌疑人一样分析模型,为测试人员提供调整攻击策略的提示。比如,某个模型可能更易受奉承影响,另一个可能在持续压力下屈服。

区别对待不同模型

即便拒绝使用拟人化词汇,我们也会本能区别对待不同模型。Claude、Grok、Gemini、ChatGPT 用途、语气和拒绝方式不同,虽无人类意义上的个性,但被设计成模仿个性,且可被分析和利用。破解聊天机器人的技能可能用于破解现实世界中的人工智能代理,安全团队需确保模型对不同类型的人做出恰当反应。

未来围绕人工智能心理层面的工作队伍

未来,围绕人工智能心理层面会形成合法和非法的工作队伍。可能出现更多网络安全角色,对系统的情感和社交极限进行压力测试,也会出现从心理层面利用人工智能模型的社交黑客。人工智能安全领域已出现向社交方向转变的早期迹象,一些“越狱者”进入该领域时无技术专长,而是有心理学训练。这意味着,间谍、骗子和审讯人员的行为在保障新的心理网络安全前沿领域方面越来越有用。

http://www.cnnetsun.cn/news/2558601.html

相关文章:

  • OpenClaw本地部署接入豆包、千问、deepseek、kimi等大模型,安装最新版v2026.5.9实战教程
  • RAG 是临时查资料,LLM Wiki 是让知识开始复利
  • LLM测试工程师必看,Claude E2E测试架构设计,从用例生成、黄金样本构建到回归基线告警闭环
  • FanControl中文版终极指南:Windows专业风扇控制软件完全实战手册
  • 实战指南:用Python构建自动连连看系统的完整解决方案
  • DeepSeek-R1代码生成能力实测:97.3%准确率背后的5个隐藏陷阱与绕过方案
  • 题解:AcWing 4548 猴子和香蕉
  • Unlock-Music:打破平台枷锁的音乐文件解密工具
  • 企业级Veo 2提示词治理框架(含合规校验/版本回溯/效果归因三模块)——仅限首批500名开发者开放》
  • 数据流降采样技术:Downstream库的核心原理与应用
  • 对比直接使用厂商API与通过Taotoken聚合调用的成本体感
  • 微信小程序AR与3D全景开发实战指南:揭秘Three.js在移动端的终极应用
  • Apple-Mobile-Drivers-Installer:Windows上iPhone USB网络共享驱动的终极解决方案
  • LLM Structured Output 生产工程:别再写正则解析JSON 了(工程师踩坑版)
  • FM5057H 二合一锂电池保护 IC
  • 智谱开启狂飙模式!7倍提速,全球最快,旗舰模型即问即答
  • WPF中Style和ControlTemplate的触发器有什么不同
  • 对比直接使用厂商api体验taotoken在路由容灾方面的优势
  • 低成本DIY智能驱猫系统:基于PIR传感器与雨刮水泵的硬件方案
  • 项目文档:基于51单片机的篮球计分器设计
  • 对比直接调用厂商API使用Taotoken聚合调用的延迟体感差异
  • Zotero检索引擎完全指南:如何快速提升文献检索效率
  • Selenium搞不定的文件上传弹窗?试试Playwright的`page.expect_file_chooser()`监听大法
  • 数据要素与大安全:运营商藏在信令里的印钞机
  • CPU-GPU协同加速LLM推理:APEX技术解析与实践
  • Win11鼠标指针太单调?这3个宝藏网站让你免费下载上千款酷炫指针方案
  • 别再傻傻插显示器了!手把手教你用BMC远程给服务器装系统(以浪潮服务器为例)
  • Avidemux视频编辑工具终极指南:5个简单步骤快速上手专业剪辑
  • 量子计算模拟器性能优化:从内存墙到指令级并行
  • Node.js驱动树莓派GPIO:从网页控制LED到舵机实战指南