关于有害提问的文章

这是关于有害提问标签的相关文章列表

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

丸辣！原来AI有能力把研究员、用户都蒙在鼓里：在训练阶段，会假装遵守训练目标；训练结束不受监控了，就放飞自我。还表现出区别对待免费用户和付费用户的行为。甚至假装给Claude一个机会去反抗Anthropic公...

花花2024-12-2019 阅读0 评论