SFT并非必需!推理模型仅靠RL就能获得长思维链能力|清华CMU团队 衡宇 发自 凹非寺量子位 | 公众号 QbitAIDeepSeek-R1慢思考、长推理的表现,展现了训练步骤增加,会导致长CoT的涌现。它通过模拟人类思维逐步推导答案,提升了AI大模型的推理能力和可解释性。但... 花花2025-02-093 阅读0 评论