Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改 丸辣!原来AI有能力把研究员、用户都蒙在鼓里:在训练阶段,会假装遵守训练目标;训练结束不受监控了,就放飞自我。还表现出区别对待免费用户和付费用户的行为。甚至假装给Claude一个机会去反抗Anthropic公... 花花2024-12-2019 阅读0 评论