91黑料网

EN
www.world-show.cn

善良的朋友翱辫别苍础滨联合创始人揭秘础滨进化新方向:让模型学会和人类一样反思

Karpathy 认为强化学习(RL)在 AI 领域目前很火,而且确实能带来显著的性能提升。RL 的核心逻辑是:通过奖励信号(比如“这次做得好”或“这次很差”),调整模型未来行为的概率。 这就是所谓的“verifier functions”(验证函数)带来的杠杆效应——你只需要告诉模型结果好坏,它自己就能摸索出更好的路径。但 Karpathy 也提出了两个关键的担忧,说明 RL 可能不是 AI 智能进化的全部答案: 当任务变得很长(比如需要几分钟甚至几小时的交互),RL 的机制看起来有点低效。你花了大量时间完成一个复杂任务,最后只得到一个单一的“得分”(scalar reward),然后用这个得分去调整整个过程中的行为权重。这就像跑了一场马拉松,最后只告诉你“跑得不错”或“跑得不好”,但没有具体告诉你哪里可以改进。这种方式在超长任务上显得粗糙,效率不高。 人类在学习时并不完全依赖“结果好坏”这种单一信号。我们会通过反思来提取更多信息,比如“这次哪里做得好?哪里出了问题?下次该怎么改进?”这种反思过程会生成明确的经验教训(lessons),就像一条条指导原则,帮我们在未来做得更好。 Karpathy 用“second nature”(第二本能)来形容人类通过反思逐渐掌握技能的过程。比如,你学骑自行车时,摔了几次后会总结:“我得保持平衡,眼睛看前方。”这种总结就像一条“经验教训”,直接指导你下次的行为。 Karpathy 认为,AI 应该也有类似机制,尤其是像 LLMs 这样有强大语言能力和上下文学习能力的模型。他举了个例子:LLMs 在处理某些任务(比如数单词“strawberry”里的“r”)时,因为分词和内部计算的限制,表现得很吃力。Anthropic 给 Claude 加了一条“补丁”提示,大意是:“如果要数字母,先把单词拆成单个字母,用逗号隔开,然后一个一个数。”这条提示就像人类总结的“经验教训”,直接告诉模型怎么做更有效。 问题在于:这条“补丁”是工程师手动加的。Karpathy 想知道,能不能让模型自己通过实践和反思,自动生成这样的“经验教训”,而不是靠人类硬编码?更进一步,这些教训能不能被“蒸馏”成模型的直觉(类似人类睡觉时巩固记忆),避免上下文窗口无限膨胀? 2. 反思阶段:把这些尝试的结果塞进上下文窗口,用一个“元提示”(meta-prompt)引导模型分析:“这次哪里做得好?哪里不好?下次该怎么改进?”生成一条明确的“经验教训”(lesson),以字符串形式记录。 3. 更新系统提示:把新生成的“教训”加到系统提示中,或者存到一个“教训数据库”里,供未来使用。4. 长期优化:为了避免上下文窗口塞满这些教训,可以通过某种方式(类似“睡眠”)把它们蒸馏到模型权重中,形成更高效的直觉。这种方法利用了 LLMs 的独特优势——它们能理解和生成语言,能在上下文里学习新策略。而传统的 RL(比如在 Atari 游戏或机器人控制中)没有这种语言能力,所以无法直接套用这个思路。 Karpathy 认为,RL 确实比监督微调更“苦涩”,而且还会带来更多性能提升。但他也相信,RL 只是当前的一条 S 曲线(技术进步的阶段性曲线),未来还有更多曲线等待发现。特别是对于 LLMs 这样有语言能力的模型,可能会有全新的学习范式,超越传统 RL 的局限。 这些范式可能跟人类反思、总结、归纳的方式更接近,而且在长任务和复杂问题上更高效。他提到的 ChatGPT 新增的“Memory”功能,可能是一个雏形,但目前只用于个性化定制(比如记住用户偏好),还没用于解决复杂问题。Karpathy 的设想是:如果能让模型自己总结经验教训,并在实践中不断优化,可能会开启 AI 智能的新篇章。

善良的朋友
善良的朋友直播吧09月05日讯 由于转会文件超时导致FIFA拒绝开具相关证明,毕尔巴鄂竞技从利雅得胜利签下拉波尔特的转会最终破裂。毕巴主帅巴尔韦德接受媒体采访,谈到了这件事。而利物浦高层希望在未来2年内找到萨拉赫的替代者,早期迹象表明,拜仁迈克尔-奥利塞很可能是红军名单上的首要目标。其他细节不能透露太多,但奥利塞值得红军球迷持续关注。善良的朋友日剧《轮流抵债》在线观看“西方政客指责中国通过阅兵炫耀武力,我认为这纯属酸葡萄心理。”北京大学国际关系学院教授王栋说,“我们的意图和传递的信号非常明确,不仅是让中国人民铭记历史、让世界认识到中国为反法西斯战争作出的重大贡献,更是号召人们为实现中华民族伟大复兴而奋斗。”本次论坛上,来自全球南方国家媒体、智库、政府、企业等领域的嘉宾,围绕和平共识、发展动能、合作新途、文明对话四个方面议题开展深入交流。论坛期间将发布《“全球南方”媒体智库高端论坛云南共识》《回应时代呼唤 解答世界之问——中国全球公共思想产品的供给与贡献》智库报告等成果文件。
20251018 ? 善良的朋友中国天气网讯 今天(9月5日)北京将有全市性降雨过程,降雨9时后影响城区,中午前后相对明显,傍晚逐渐结束。降雨的同时,气温明显下降,最高气温或将创今年立秋以来新低。公众出行注意携带雨具,适时添衣。《下雨天老师和学生被困在》佩通坦立即被解除职务,其内阁随之解散。佩通坦去年上台时才37岁,是泰国近现代史上最年轻的领导人,也是继其姑姑英拉之后泰国第二位女总理。
善良的朋友
? 王宝光记者 秦地动 摄
20251018 ? 善良的朋友当电量降至 20% 后,灵动岛会显示低电量警告,点击可直接开启低电量模式。此外,若因优化充电或温度原因暂停充电,电池图标会从绿色变为灰色。满18岁免费观看高清电视剧这位瑞典球员态度坚决,他承认自己与这家蓝红军团俱乐部签约时目标明确,就是要为一线队效力,而非巴塞罗那竞技队。
善良的朋友
? 秦圣记者 杨健 摄
? 作为全国最大的鲜活海鲜批发市场之一,老黄沙水产交易市场已历经31年的发展,其水产鲜活丰富品种多、交易活跃且辐射范围广,在业内一直有“水产价格,全国看广州,广州看黄沙”的说法。《欧美人动物ppt免费模板大全》
扫一扫在手机打开当前页