通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
成色18k.8.35mb菠萝事实上,马斯克创建的SpaceX与蓝色起源之间的航天竞赛已持续多年。美国福克斯新闻网此前报道称,SpaceX的“猎鹰9号”火箭多年来持续执行卫星发射以及国际空间站人员运输任务,“星舰”火箭也在进行试飞。蓝色起源官网显示,其正在推进“新谢泼德”火箭的第13次载人飞行,也是“新谢泼德计划”历史上的第33次飞行。该公司还在研发两级运载的“新格伦”火箭。罗伯逊被马竞视为夏窗目标,前者的未来因利物浦即将签下科尔克兹而蒙上阴影。伯恩茅斯与利物浦就科尔克兹的谈判已持续数周,接下来预计将加速推进,伯恩茅斯周一刚以1440万英镑从雷恩签下左后卫特鲁弗特,樱桃军团坚持对21岁的科尔克兹要价4500万英镑,而曾主导其转会加盟伯恩茅斯的利物浦体育总监理查德-休斯正试图压价。成色18k.8.35mb菠萝叠站必看的片中新经纬6月17日电 据深圳市市场监督管理局网站16日消息,深圳罗马仕科技有限公司(下称“罗马仕”)召回部分罗马仕牌PAC20-272、PAC20-392、PLT20A-152型号移动电源。美交通部在致相关方的信中表示,将简化申请豁免现行安全法规的审查流程。这些法规要求车辆必须配备方向盘、踏板和后视镜,但对为自动驾驶而设计的新车型而言,这些部件往往并不适用。
20251231 ? 成色18k.8.35mb菠萝达菲表示,交通部希望在四年内完成该项目,但行业专家称这个时间安排不切实际。无论最终需要多长时间,美国的空中交通管制系统被忽视数十年后,如今迫切需要升级。19岁在线观看免费高清完整版韩剧——作为朋友,我们聊了聊他在这里的经历,当你转会时,你会想要了解球队的情况。他告诉我他热爱这里,这在他的比赛中也体现了出来,他享受足球。一切都告诉我,这里是我职业生涯发展的理想之地。
? 李硕记者 夏悠轩 摄
20251231 ? 成色18k.8.35mb菠萝但这次事件却给王老师和学校都留下了深刻的教训,也让大家意识到在处理师生关系和家校沟通时,需要更加谨慎和理性。《日剧《无法抗拒的他》电视剧》最近两年来,中国科研人员一直在咸海周边推进“光伏技术在咸海生态环境治理中的集成、试验与示范项目”。在努库斯,新疆生地所和咸海国际创新中心去年开展“光伏+棉花水肥一体化”种植试验示范项目,通过棉花覆膜滴灌技术、光伏发电和智能水肥一体机,实现棉田智能滴灌和施肥,使得棉花产量提高了两倍以上,同时成本和用水量显著下降。
? 赵春生记者 段战领 摄
? 时间固然有巧合,但也并非巧合。出身复旦大学世界经济系的王战,老本行是世界经济长周期理论研究。2014年、2016年,王战两次参加习近平总书记主持的经济形势专家座谈会,前一次是第一个发言,后一次是第五个发言,用了同样的开场白:当时正处于世界经济第五个长周期的“相对衰退期”。上面一个奶下面一个顶是什么字




