91黑料网

EN
www.world-show.cn

y31成色好的s31正品骋笔罢-5训练背后隐藏大佬:靠一篇博客入职翱辫别苍础滨

智东西6月16日消息,今天,AI云服务商Hyperbolic的联合创始人兼CTO Yuchen Jin在社交平台X上曝料:研究员Keller Jordan仅凭一篇博客文章就加入了OpenAI,并可能正用博客提及的神经网络隐藏层的优化器Muon训练GPT-5。 “许多博士(包括以前的我)都陷入了这样一个误区:认为在顶级会议上发表论文才是最终目标。但发表论文≠影响力。Muon只作为一篇博客文章发布,它让Keller加入了OpenAI,他现在可能正在用它训练GPT-5。”Yuchen Jin说。 从职场社交平台领英可知,Keller Jordan正是在2024年12月加入OpenAI,由此我们也可以推测他正是凭去年12月发布的一篇博客,成功进入了如日中天的头部大模型公司。 Keller Jordan的博客文章主要关注Muon的设计。首先他定义了Muon并概述其在当时已取得的实证结果;然后他详细讨论了Muon的设计,包括与先前研究的联系以及对其工作原理的最佳理解;最后他讨论了优化研究中的证据标准。 使用Muon训练神经网络时,应使用AdamW等标准方法优化网络的标量和矢量参数以及输入层和输出层。Muon可用于四维卷积参数,方法是将其最后三个维度展平。 Muon通过采用SGD-momentum生成的更新来优化二维神经网络参数,然后在将它们应用于参数之前,对每个更新应用 Newton-Schulz (牛顿-舒尔茨迭代法,简称NS)迭代作为后处理步骤。 为什么正交化更新可行?出于实证研究的动机,作者基于人工检验观察到,SGD-momentum和Adam对基于Transformer的神经网络中的二维参数产生的更新通常具有非常高的条件数。也就是说,它们几乎是低秩矩阵,所有神经元的更新仅由少数几个方向主导。 一个是SVD方法,它太慢了,所以作者没有使用它。另一个是Coupled Newton iteration (耦合牛顿迭代法),它必须至少以float32精度运行才能避免数值不稳定,这导致它在现代GPU上运行速度较慢,所以作者也没有采用。 根据设计,Muon仅适用于二维参数,以及通过展平的卷积滤波器,因此网络中其余的标量和矢量参数必须使用标准方法(例如 AdamW)进行优化。 根据经验,Keller Jordan发现使用AdamW优化输入和输出参数也很重要,即使这些参数通常是二维的。具体来说,在训练Transformer时,应该将AdamW用于嵌入层和最终分类器头层,以获得最佳性能。嵌入层的优化动态应该与其他层不同,这遵循模块化范数理论。输出层的这种动态也不同,这似乎并非来自理论,而是由经验驱动的。 另一个纯经验性的结果是,在他们测试的所有案例中,使用 Nesterov式动量对Muon的效果都比普通的SGD动量略好。因此,他们在公开的Muon实现中将其设为默认设置。 第三个结果是,如果将Muon分别应用于变压器的Q、K、V参数,而不是一起应用于变压器,则Muon可以更好地优化变压器,因为对于将QKV参数化为输出被分割的单个线性层的变压器实现,默认做法是将它们一起应用。 Keller Jordan认为,神经网络优化研究文献目前大多充斥着一堆已死的优化器,它们声称能够击败AdamW,而且往往以巨大的优势获胜,但却从未被社区采用。鉴于业界在神经网络训练上投入了数十亿美元,并渴望降低成本,他们可以推断,问题出在研究界,而非潜在的采用者。 Keller Jordan犀利地提出:这项研究出了问题。仔细研究每篇论文后,他们发现最常见的罪魁祸首是糟糕的基线:论文在将其与新提出的优化器进行比较之前,往往没有充分调整AdamW基线。 发表声称有巨大改进但无法复制/达到宣传效果的新方法,浪费了大量个人研究人员和小型实验室的时间、金钱和士气,他们每天都在为复制和构建此类方法的失败而感到失望。 为了纠正这种情况,Keller Jordan建议采用以下证据标准:研究界应该要求,只要有可能,神经网络训练的新方法就应该在竞争性训练任务中取得成功。 竞争性任务通过两种方式解决了基线欠调问题。首先,竞争性任务的基线是先前的记录,如果该任务很受欢迎,则很可能已经经过了良好的调整。其次,即使在先前记录未经过良好调整的不太可能发生的情况下,也可以通过新的记录进行自我修正,将训练恢复到标准方法。 通过定义、拆解设计及实证研究,Keller Jordan发现了Muon神经网络隐藏层的优化器具备优于AdamW的效率。通过最新曝料可知,这一技术很有可能成为OpenAI正在研究的GPT-5的重要部分。 Keller Jordan也提出了一些尚未解决的问题。包括:Muon可以扩展到更大规模的训练吗?是否有可能在大型GPU集群中正确分布Muon使用的Newton-Schulz迭代?Muon是否仅适用于预训练,而不适用于微调或强化学习工作负载?或许在GPT-5的研究中,作者已经知道了这些问题的答案。

y31成色好的s31正品
y31成色好的s31正品孙大文表示,四川积极搭建连接全球的高能级平台,吸引了越来越多海外侨胞关注、投资与参与。“四川在科技投入上持续加大力度,众多高校和科研机构不断产出高质量的科研成果,创新氛围日益浓厚。”富安健洋在阿森纳证明了自己的实力,但这位日本球星饱受伤病困扰。日本后卫富安健洋直到最近还是阿尔特塔最信任的球员之一,但由于伤病记录,他的合同在北伦敦被终止了。现年26岁的他仍然可以在顶级联赛中有所贡献。y31成色好的s31正品《在床上怎么做才能让男人荷尔蒙提高》这个所谓的“差班”,对于老教师来说,有着特殊的意义。那是她从一年级就开始亲手带起来的班级,从孩子们懵懂无知、连基本的生活自理能力都欠缺,到如今逐渐成长,她见证了每一个孩子的蜕变。研究团队创新性地引入火震阵列分析方法,通过对23个信噪比较高的火震事件数据的分析,成功提取出穿过火星核的关键震相。实验结果表明,火星核具有分层结构,即外层为液态核,更深部则存在一个波速更高的固态内核。
20251018 ? y31成色好的s31正品上周英伟达发布2026财年第二季度财报。该季度英伟达营收467.43亿美元,同比增长56%,略超此前市场预期,净利润(GAAP)264.22亿美元,同比增长59%。但该季度英伟达数据中心收入略低于此前市场预期。当地时间9月5日开盘,英伟达股价跌超2%。图书馆的女朋友王田苗指出,具身智能是我国应对“百年未有之大变局”的关键技术与高端科技产业的突破口。具身智能战略发展包括高端制造、全球智能终端、制造服务与消费服务平台以及医疗器械与装备等。具身智能运营管理与数据提炼、操作载体产品设计与成本、AI模型与域控落地迭代,是具身智能快速迭代进化形成平台赢家的底层逻辑三要素。
y31成色好的s31正品
? 张胜利记者 袁成 摄
20251018 ? y31成色好的s31正品岛内这种心态被大陆网友戏称为“操着洲际导弹的心、挨着火箭炮的打”。对此,退役台湾陆军少将栗正杰表示,这次阅兵上所发布的装备,包括高超声速导弹、无人作战系统、歼-35隐形战斗机以及新型潜航器等,都是在向全世界展示“反介入与区域拒止”的实力,解放军的战力可延伸至第二岛链,有能力阻止美军援助台湾,并警告所有国家不要介入台海局势。鲁鲁影院免费观看电视剧电影窝窝在一场具有里程碑意义的法律斗争中,英格兰足总(FA)败诉,需向诺丁汉森林俱乐部支付一笔六位数的赔偿金。这场裁决揭示了管理机构内部存在的严重问题,并引发了诸多质疑。律师们发现,格雷姆-麦克弗森KC在处理一起涉及俱乐部的争议时,可能对诺丁汉森林进行了“不正当、不适当且个人化的攻击”。
y31成色好的s31正品
? 孙志刚记者 柴瑞锋 摄
? 可换到重点高中,早上六点半的操场,背书声能盖过鸟鸣;课间十分钟,前排同学转过来问的不是“等下吃什么”,而是“刚才那道物理题的临界条件是不是错了”;就连去食堂打饭,排队时都能听见有人在聊“历史大题的答题模板”。鲁鲁影院免费观看电视剧电影窝窝
扫一扫在手机打开当前页