斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准 奇月 发自 凹非寺量子位 | 公众号 QbitAI只是换一下数学题的变量名称,大模型就可能集体降智??斯坦福大学最新研究表明,在他们最新提出的Putnam-AXIOM测试集上,仅仅是更换一下原题目的变量名称、变... 花花2025-01-068 阅读0 评论