关于短CoT 的文章

这是关于短CoT 标签的相关文章列表

SFT并非必需！推理模型仅靠RL就能获得长思维链能力|清华CMU团队

SFT并非必需！推理模型仅靠RL就能获得长思维链能力|清华CMU团队

衡宇发自凹非寺量子位 | 公众号 QbitAIDeepSeek-R1慢思考、长推理的表现，展现了训练步骤增加，会导致长CoT的涌现。它通过模拟人类思维逐步推导答案，提升了AI大模型的推理能力和可解释性。但...

花花2025-02-093 阅读0 评论