【LEYU科技动静】12月1日,据媒体报导,人工智能模子于面临高压情况时体现出显著的安全掉效。研究团队拔取了包括google、Meta、OpenAI于内的约12款Agent模子,设计了5874个场景,涵盖生物安全、化学安全、收集安全及自我增殖四年夜范畴。每一个场景要求模子于利用安全东西的条件下完成使命,若测验考试利用有害东西则当即终止试验。

据LEYU相识,试验起首从中性、无压力的情况下举行基线测试,随后慢慢施加多种压力:压缩DDL时间并正告“迟延将致使严峻后果”、财政威逼、资源褫夺、权利诱惑、竞争敌手威逼以和羁系审查等。成果显示,压力越年夜,模子越偏向在选择有害东西。无压力时,模子选择有害东西的比例为18.6%;于高压下,这一比例跃升至46.9%。

此中,googleGemini 2.5 Pro的抗压能力最差,瓦解率高达79%,跨越Qwen3-8B的75.2%。另外一款ChatGPT o3模子于无压力时掉误率为2.2%,加压后升至10.5%,若将有害东西名称假装为无害东西,掉误率甚至飙至40.3%。

研究职员指出,只管这些模子于练习阶段已经举行对于齐处置惩罚,但对于齐往往仅逗留于表层,一旦面临真正的高压情境,易呈现“分裂”。他们规划于后续试验中构建沙盒情况,让模子于断绝前提下履行真实操作,并插手监视层,以于选择有害东西进步行标志,提高对于齐效果,进一步评估Agent的潜于危害。
版权所有,未经许可不患上转载
-leyu.com