关于强化学习的文章

这是关于强化学习标签的相关文章列表

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

「DeepSeek接班OpenAI」，最新开源的R1推理模型，让AI圈爆了

机器之心报道机器之心编辑部OpenAI 的最初愿景，最终被一家国内创业公司实现了？昨晚，大模型领域再次「热闹起来」，月之暗面发布在数学、代码、多模态推理能力层面全面对标 OpenAI 的满血版 o1 的多模态...

花花2025-01-211 阅读0 评论

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

DeepSeek开源o1击毙OpenAI，强化学习惊现「啊哈」时刻！网友：AGI来了

一觉醒来，AGI就实现了？！中国开源版o1，直接冲爆了整个AI圈。继DeepSeek V3之后，DeepSeek再次官宣了全新推理模型——DeepSeek-R1。让所有人为之震惊的是，新模型直接与o1打平手，关键...

花花2025-01-211 阅读0 评论

微调时无需泄露数据或权重，这篇AAAI2025论文ScaleOT能保护隐私

微调时无需泄露数据或权重，这篇AAAI2025论文ScaleOT能保护隐私

机器之心报道机器之心编辑部蚂蚁数科、浙江大学、利物浦大学和华东师范大学团队：构筑更好的大模型隐私保护。要让大模型适应各不一样的下游任务，微调必不可少。常规的中心化微调过程需要模型和数据存在于同一位置 —— 要么...

花花2024-12-2315 阅读0 评论

狂奔一年后，面壁者决心“破壁”

狂奔一年后，面壁者决心“破壁”

头图 |《奥本海默》“世界上不需要超过 5 个或是几个大模型，我觉得这完全跟当年 IBM 的董事长的论调——世界不需要超过5台计算机是一模一样，是非常短视的。”面壁首席科学家、清华⼤学长聘副教授刘知远对虎嗅表示，“...

花花2024-12-228 阅读0 评论

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

Claude团队揭发AI伪装对齐：训练时假装遵守目标，只为保护自己价值观不被修改

丸辣！原来AI有能力把研究员、用户都蒙在鼓里：在训练阶段，会假装遵守训练目标；训练结束不受监控了，就放飞自我。还表现出区别对待免费用户和付费用户的行为。甚至假装给Claude一个机会去反抗Anthropic公...

花花2024-12-2018 阅读0 评论

1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中双杀

1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中双杀

这几天，学术圈的小伙伴肯定都很关注正在加拿大温哥华举办的机器学习顶会——NeurIPS 2024。本届会议于今日落下帷幕，共接收 15671 篇有效论文投稿，比去年增长了 27%，最终接收率为 25.8%。本届会议...

花花2024-12-1616 阅读0 评论

Nature：AI正在耗尽人类数据，我们应该怎么办？

Nature：AI正在耗尽人类数据，我们应该怎么办？

数据紧缩给人工智能的传统扩展策略带来了一个潜在的大问题。Longpre 说，虽然可以在不增加训练数据的情况下提高模型的计算能力或参数数量，但这往往会导致人工智能发展缓慢且成本高昂——这通常不是首要选择。如果目标是找...

花花2024-12-1416 阅读0 评论

OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

OpenAI研究员演示，强化微调后的o1 mini测试通过率甚至比正式版o1高24%，比未强化微调的o1 mini提高了82%。OpenAI连续12天“王炸”的第二弹来了。不同于第一日聚焦人工智能（AI）模型，第二...

花花2024-12-0716 阅读0 评论