AI 研究人员声称他已经绕过了 Anthropic 的《神鬼寓言 5》护栏

“解放者普林尼”说,在新推出的《神鬼寓言 5》中,他一直在“巧妙地找到思想警察错过的栅栏上的洞”。一位人工智能和网络安全研究人员声称,在 Anthropic 最新的人工智能模型 Claude Fable 5 推出后仅 48 小时内就已越狱。

2026-06-11 14:15 茅庐网 频道订阅

这条消息真正值得盯的,不只是单个机构动作,而是传统金融和链上基础设施还在继续往一起靠。

先看这条消息最重要的地方

  • “解放者普林尼”说,在新推出的《神鬼寓言 5》中,他一直在“巧妙地找到思想警察错…
  • 一位人工智能和网络安全研究人员声称,在 Anthropic 最新的人工智能模型…
  • 人工智能界的知名人物“解放者普林尼”周三表示,他“解放”了周二推出的《神鬼寓言…

事件本身说了什么

“解放者普林尼”说,在新推出的《神鬼寓言 5》中,他一直在“巧妙地找到思想警察错过的栅栏上的洞”。

一位人工智能和网络安全研究人员声称,在 Anthropic 最新的人工智能模型 Claude Fable 5 推出后仅 48 小时内就已越狱。

人工智能界的知名人物“解放者普林尼”周三表示,他“解放”了周二推出的《神鬼寓言 5》,它是更强大的 Mythos 模型的安全调整版本,Anthropic 认为该模型太危险,无法广泛发布。

他使用了各种技术,包括 Opus 4.8 的越狱版本,来绕过 Anthropic 在模型上安装的内置安全措施,以防止用户向模型询问潜在的有害信息,例如制毒配方或黑客指令。

“尽管神话之上有这个过于敏感、专制的‘安全’层,但我的小解放者们一直在努力工作……巧妙地找到了思想警察错过的栅栏上的漏洞,”普林尼说。

在今年早些时候推出 Claude Fable 5 和 Mythos 期间,一些加密用户已经表达了担忧,担心它可能会被用来攻击加密协议和软件。克劳德寓言 5 的越狱版本意味着威胁比预期更接近。

“Pliny”在 2024 年左右因开发并公开分享 ChatGPT、Claude、Grok 等模型的越狱提示而声名鹊起,经常在新的 AI 模型推出后不久发布带有绕过护栏技术的“越狱警报”。

为了绕过 Anthropic 的安全围栏,普林尼说,他使用了 Unicode 和同形文字、长上下文框架、叙事和小说框架、学术风格的分解重组以及越狱的 Claude Opus 4.8,让《神鬼寓言》对他原本受限的提示做出反应。

“也许最有效的是后端的分解+重组,”他说。

这包括将请求分解成小的、无害的部分,并一一询问听起来无害的事实。每个提示对于人工智能的安全过滤器来说看起来都很好,但当它们重新组合在一起时,它们会产生更有用或更危险的东西。

普林尼通过询问桦木还原法展示了甲基合成的途径。资料来源:普林尼

Anthropic 的《神鬼寓言 5》自推出以来,由于其严格的限制而引起了批评者的强烈反对。

当用户向模型提示敏感主题(例如生物武器或网络安全)时,《神鬼寓言 5》会返回通知,然后将对话重定向到较早、功能较弱的模型。

据《华尔街日报》报道,普林斯顿大学人工智能研究员萨亚什·卡普尔 (Sayash Kapoor) 表示:“这是人工智能公司第一次推出护栏,并遭到了一致的蔑视。这引发了很多合理的愤怒。”

普林尼说:“人们的共识似乎是,这是有史以来最令人失望的模型下降之一,有效地阻止了合法研究人员为我们的集体进步贡献自己的才能。”

在《神鬼寓言 5》发布期间,Anthropic 表示,它运行了一个外部错误赏金计划,以寻找越狱 AI 模型的方法。

放到主线里怎么看

这条新闻值得关注的核心,在于传统金融基准和链上基础设施的连接正在继续深入。对市场来说,这类动作释放的不是短期炒作信号,而是机构把链上数据、清算和资产映射逐步纳入正式流程的趋势。

今天最容易误判的地方

最容易误判的地方,是把这类消息只当成某家公司或者某个平台的业务动态。它更值得看的,通常是基础设施和机构接口有没有继续往前走。

普通用户该怎么处理

普通用户今天更适合把这类消息当成中期趋势信号看,先观察它会不会继续带来产品、牌照、托管或资金入口的变化,而不是急着追单点热点。

茅庐网提醒

茅庐网提醒:宏观和地缘政治新闻对币圈的影响往往是通过情绪和流动性传导,不适合只看标题就做交易决定。

消息来源:CoinTelegraph

币圈资讯由茅庐网(mao.lu)收集整理,仅供参考。

留言交流

还没有留言

欢迎补充看法、纠错、补线索。这里更适合交流判断,不适合贴广告和无关灌水。

写下你的看法

昵称和邮箱只用于展示与回复通知,不会公开你的邮箱地址。