谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作 想挑战 Transformer 的新架构有很多,来自谷歌的“正统”继承者 Titan 架构更受关注。英伟达把测试时间计算(Test-time Computing)称为大模型的第三个 Scaling Law。Ope... 花花2025-01-158 阅读0 评论
谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班钟沛林新作 梦晨 发自 凹非寺量子位 | 公众号 QbitAI想挑战 Transformer 的新架构有很多,来自谷歌的“正统”继承者Titan架构更受关注。英伟达把测试时间计算(Test-time Computing)称... 花花2025-01-146 阅读0 评论