正文

SFT并非必需!推理模型仅靠RL就能获得长思维链能力|清华CMU团队

花花