正文

Claude团队揭发AI伪装对齐:训练时假装遵守目标,只为保护自己价值观不被修改

花花