LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破 在2016年的NeurIPS会议上,图灵奖得主Yann LeCun首次提出著名的「蛋糕比喻」:如果智能是一块蛋糕,那么蛋糕中的大部分都是无监督学习,蛋糕上的糖霜(锦上添花)是有监督学习,蛋糕上的樱桃则是强化学习。... 花花2024-12-2313 阅读0 评论
OpenAI 推出“强化微调”计划,让创建专家大模型更简单了 | 最前线 12月7日北京时间凌晨两点,OpenAI公司带来了连续12天发布会的第二场直播。本次直播中,OpenAI带来了新的方案——强化微调(Reinforcement Fine-Tuning)。该方案和功能预计将于2025... 花花2024-12-0818 阅读0 评论