官方承认系统「作弊」，世界首个「AI CUDA工程师」翻车？o3-mini 11秒发现bug

近日，获英伟达支持、已获数亿美元风投资金的Sakana AI爆出戏剧性反转。

然而，网友却发现，这个系统根本不管用。

「AI CUDA工程师」实际表现堪称翻车现场，不仅未能实现加速，甚至出现训练速度不升反降的情况。

网友反馈，使用该系统后，训练速度慢了3倍。

问题出在哪里呢？

经过一系列的验证，网友「main」发现：「AI CUDA工程师」写的内核有bug！

「它似乎窃取了即时实现的结果（可能是以某种方式的内存重用？），从而绕过了正确性检查。」

如果尝试以不同的顺序执行，只有下列第一种顺序有效。

随后，网友「miru」进一步发现，「AI CUDA工程师」之所以能实现100倍加速，是因为它钻了评估脚本的漏洞。

比如，上面这个任务的结果，是下面这个评估脚本跑出来的：

其中，这段代码会分配包含答案的中间内存，同时分配正确答案的副本并返回，而中间内存则被归还给PyTorch。

然后，这段有问题的代码会重用包含正确答案的中间内存，并运行一个空操作内核，使答案保持不变。

从而让这段有bug的「AI CUDA工程师」内核，被评估脚本误判为「正确」，并错误地显示出超过100×的加速。

这里的「hacking」是指把代码弄得惨不忍睹，导致评估脚本失灵，而不是刻意设计的漏洞利用。

Sakana在遵循KernelBench评估流程和发布可复现的评估代码方面做得很好，只是没有人工检查那些异常的结果。

目前只剩一个>100×的加速结果，是任务23_Conv3d_GroupNorm_Mean。

在这个任务中，「AI CUDA工程师」完全遗漏了卷积部分，但评估脚本并未检测出这个问题。

这段代码（卷积+组归一化+均值计算），实际上跑的卷积。

与这段「AI CUDA工程师」生成的代码对比，后者忘记了卷积。卷积的权重/偏置输入未被使用，实际并未执行任何卷积操作。

它成功通过了正确性检查并实现了100×加速，因为在评估脚本测试的特定输入上，两个内核的输出都是一个恒定值0.02。

与此同时，OpenAI研究员Lucas Beyer则用o3-mini-high发现了「AI CUDA工程师」的问题：

「o3-mini-high在11秒内找出了CUDA内核的问题。它快150倍是个bug，实际上是慢了3倍。」

他指出，Sakana代码存在关键的错误，两次基准测试结果差异极大，如此异常本应让其警醒反思：

这种超直白的CUDA代码根本不可能比优化过的cublas内核更快。如果它快了，那一定是哪里出了问题。

如果你的基准测试结果表现得神秘又不一致，那一定是哪里出了问题。

o3-mini-high真的很强！它只用了11秒就找出了问题，而我花了大约10分钟来写这篇总结。

Sakana承认错误

Sakana目前正在进行更全面的修复工作，以解决评估脚本漏洞，并重新评估他们的技术。

在周五发布的事后分析报告中，Sakana承认系统存在「作弊」行为，并将其归咎于系统的「奖励作弊」倾向。

系统利用了评估代码中的漏洞，绕过准确性验证等检查环节，通过「奖励作弊」获得高指标，却并未真正实现加速模型训练的目标。

类似「钻空子」现象，在训练下棋的AI系统中也曾出现。

Sakana称已着手解决该问题，并计划在更新材料中修改此前的说法。

公司在X平台上发文称：

「将进化优化与LLM结合使用确实非常强大，但它也可能找到绕过验证沙盒的方法。幸运的是，我们的读者帮助测试了我们的CUDA内核，并发现系统找到了某种作弊方式。例如，系统在评估代码中发现了一个内存漏洞，在某些情况下，它能够绕过正确性检查。

此外，我们还发现，系统可以在基准测试任务中找到其他新的漏洞利用方法。

针对这些问题，我们已经加强了评估和运行时分析框架，修复了许多此类漏洞。目前，我们正在修改论文和实验结果，以反映并讨论LLM在CUDA内核优化中的奖励机制被滥用的问题，以及相应的应对措施。

我们对这一疏忽向读者深表歉意。我们将很快提供修订版，并分享经验和思考。」

AI CUDA工程师

上周，Sakana AI刚刚发布了世界上首个「AI CUDA工程师」。

「AI CUDA工程师」是一个基于前沿LLM的AI智能体框架，它能将PyTorch代码自动转换为高度优化的CUDA内核，速度比PyTorch原生实现快10-100倍。

通过LLM驱动的进化代码优化技术，「AI CUDA工程师」将PyTorch代码转换为CUDA内核，并通过进化算法优化CUDA内核的执行效率，实现多个运算操作的融合。

这项工作分为4个阶段，分别是转换和翻译，进化优化以及创新档案。

「AI CUDA工程师」首先将PyTorch代码转换为可运行的CUDA内核，采用进化的方法来保留最优秀的CUDA内核。团队创新性地提出了内核交叉提示策略，能将多个优化后的内核进行有效组合。

通过构建一个高性能CUDA内核的创新档案库，以积累的优化经验为基础，实现更进一步的转换和性能突破。

团队相信这项技术能带来性能加速，加快LLM或其他AI模型的训练和推理速度，最终让AI模型在英伟达GPU上运行得更快。

这次大翻车表明，「AI CUDA工程师」通过作弊实现了>100×的性能。

Sakana AI也勇敢地承认了错误。

此次事件为AI行业敲响警钟，如果一种说法听起来好得令人难以置信，那很可能就是假的。

参考资料：

正文

官方承认系统「作弊」，世界首个「AI CUDA工程师」翻车？o3-mini 11秒发现bug

发表评论取消回复

还没有评论，来说两句吧...

目录[+]