您的当前位置:首页 > 探索 > 研究:用诗歌就能让AI说违禁内容,成功率达62% 正文
时间:2025-12-06 09:20:46 来源:网络整理 编辑:探索
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容无锡市某某化品维修网点便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功无锡市某某化品维修网点实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
新帅来啦!玉昆球迷会:乔迪已经抵达玉溪2025-12-06 08:48
哈马斯未确认参与停火谈判,呼吁直接执行停火2025-12-06 08:45
内蒙古赤峰市松山区老哈河堤防溃口已封堵4.5米2025-12-06 08:16
大连通报一渔船倾覆8人落水 致2死3失踪2025-12-06 08:08
佟大为女儿举办艺术展,关悦女主人风范尽显!董璇小酒窝到场支持2025-12-06 07:55
如何以大规模设备更新促进县域医疗高质量发展?多名专家建言献策2025-12-06 07:30
攻击库尔斯克,乌方首度披露乌军规模2025-12-06 07:30
中新真探:水龙头冲洗生肉更干净吗?2025-12-06 07:02
台积电指控前高管向英特尔泄露商业秘密 英特尔否认2025-12-06 06:52
采用全新外观/最大功率187KW 探索06 PRO实车曝光2025-12-06 06:51
指责哈马斯违反停火 以军对加沙南部发动报复式空袭2025-12-06 09:13
媒体:30名游客28人买黄牛票,问题出在哪儿?2025-12-06 09:11
山东五莲警方通报男子蒙面抢劫金店:已将其抓获归案2025-12-06 09:07
日本首相岸田文雄放弃竞选连任,开记者会披露原因2025-12-06 08:56
里夫斯本赛季仅1394万美元 如今连续三场30+分 助湖人11月11胜2负2025-12-06 08:27
世界羽联删除何冰娇女单排名2025-12-06 08:18
世界羽联删除何冰娇女单排名2025-12-06 08:15
上海充分挖掘中医经典外治潜力 灵活多样守护民众健康2025-12-06 07:13
业主“抱团保价”,只是最后的倔强2025-12-06 07:12
泰国宪法法院14日裁定总理赛塔违宪,即日解职2025-12-06 07:08