91黑料网

EN
www.world-show.cn

洗屋先生ICCV 2025 HERMES:首个统一3D场景理解与生成的世界模型

本文第一作者周鑫、共同第一作者梁定康,均为华中科技大学博士生,导师为白翔教授。合作者包括华中科技大学涂思凡,旷视科技丁宜康,迈驰智行陈习武、谭飞杨,香港大学赵恒爽助理教授。 在复杂的城市场景中,HERMES 不仅能准确预测未来三秒的车辆与环境动态(如红圈中标注的货车),还能对当前场景进行深度理解和问答(如准确识别出 “星巴克” 并描述路况)。 近年来,自动驾驶技术取得了令人瞩目的进展。要让智能汽车安全高效地行驶在复杂的真实道路上,车辆必须具备两大核心能力:对当前环境的深刻理解(例如识别交通参与者、理解交通规则、推理场景语义)以及对未来场景的准确预测(如预测行人、车辆的运动,提前规避风险)。 世界模型(Driving World Model, DWM)侧重于未来场景的生成与预测,但缺乏对当前环境的细致语义理解,难以回答 “现在是什么情况?”、“驾驶员该如何决策?” 等问题。大语言模型(LLM)及视觉 - 语言模型(VLM)则在场景理解、问答和描述方面表现优异,但通常只能 “看懂”,却难以 “想象” 未来场景的演化。 然而,现实中的自动驾驶决策,恰恰需要这两种能力的深度融合。例如,车辆不仅要能描述 “前方有行人正在通过斑马线”,还要能预测 “3 秒后这位行人将到达路中央,需提前减速”。 其次,如何在一个模型内,让 “理解” 和 “生成” 这两个看似独立的任务能够相互促进,而非相互干扰?如何将强大的世界知识与前瞻性的场景预测无缝集成到一个统一的框架中,成为亟需突破的难点。 HERMES 采用 Bird’s-Eye View(BEV,鸟瞰图)作为统一的场景表达。它首先通过一个 BEV Tokenizer 将六路环视图像高效地编码并投影到一个紧凑的俯视视角表征中。这种做法不仅有效解决了 LLM 输入长度的限制,更重要的是保留了多视图图像之间的精确空间几何关系和丰富的语义细节。无论后续任务是理解还是生成,模型都能在同一套高质量的 BEV 特征空间中自由切换,为后续的统一处理奠定了坚实基础。 为了打破理解与生成之间的壁垒,HERMES 引入了世界查询(World Queries)机制。这是一组从 BEV 特征中通过自适应采样(如最大池化)提取出的、代表场景核心信息的可学习 Token。其工作流程如下: 1.知识注入:将 BEV 特征通过自适应采样(如最大池化)转化为一组表达世界知识的查询向量,再把世界查询与 BEV 特征、用户文本指令一同被送入 LLM。在 LLM 处理语言理解任务(如回答问题)的过程中,世界查询通过因果注意力机制(causal attention)吸收和编码了对于当前场景的丰富世界知识和上下文信息。 2.知识传递:经过 LLM 处理后,这些富含知识的世界查询被一个 “当前 - 未来” 连接模块(Current to Future Link)所使用。该模块通过交叉注意力将世界查询中蕴含的 “理解” 成果,有效地注入到对未来场景的预测中,引导模型生成未来多帧的 BEV 特征。 3.统一输出:最终,一个共享的渲染器(Shared Render)将当前和未来的 BEV 特征解码为 3D 点云序列,同时完成对当前场景的理解和对未来场景的生成。 在未来生成任务上,Chamfer Distance 显著优于 ViDAR,3 秒未来点云误差降低 32.4%,仅用当前帧即可实现更高精度的未来预测。与同类模型相比,HERMES 无需历史序列,推理更高效,泛化能力更强。在场景描述、视觉问答等理解任务上,HERMES 在 CIDEr、METEOR、ROUGE 等主流自然语言生成指标上超越了 OmniDrive 等理解专用模型,CIDEr 提升 8%。HERMES 与 “分离式理解 + 生成” 模型(即简单共享特征,但理解和生成模块独立)对比,生成精度提升显著,理解能力无损,充分验证了统一建模的有效性与优越性。 HERMES 不仅能够生成时序连贯且几何精确的未来点云,还能对驾驶场景的细节进行精准描述。无论是预测动态物体的移动,还是识别路边的商家,HERMES 都展现出强大的综合能力。更多可视化结果请访问项目主页。 HERMES 为自动驾驶世界模型提供了一个简洁、有效且统一的新范式。它通过利用 BEV 表征和世界查询,成功弥合了 3D 场景理解与未来生成之间的鸿沟,为开发更智能、更可靠的自动驾驶系统迈出了坚实的一步。

洗屋先生
洗屋先生就王岢说法,中国新闻周刊尝试联系福建医科大学附属第一医院全科医学科护士站,工作人员表示,相关问题请联系该院党委宣传部。随后,该院党委宣传部工作人员对此回应中国新闻周刊,“鼓励员工的兴趣爱好在不影响工作的情况下”,至于其他问题,电话中不便接受采访。非常荣幸在抗战胜利80周年的重要时刻来到北京现场亲身参加阅兵。我出生于70年代末,当时是一个没有战争,享受改革开放发展红利的幸福年代。在今天的阅兵中,各个方队的整齐动作,武器装备的宏伟、先进,都展现了祖国的强大。而国家主席习近平在登上天安门城楼时,与抗战老兵代表亲切握手,让我感到非常动容,也很感恩。我们现在的安稳生活、全球和平,都是基于80年前中国人民在抗日战争中作出的巨大牺牲,在国家的强大保护之下,我们必须铭记历史,这一切都是来之不易的!洗屋先生樱花辫辫迟网站大片一个值得关注的小细节:今年6月,默林娱乐集团将位于英国黑池的杜莎夫人蜡像馆等多家景区的运营权移交给当地议会,以此优化资产结构、降低运营成本。第一盘,阿卡在第一局就完成破发。此后,双方均保发成功。6-4,阿卡拿下第一盘。第一盘一共耗时48分钟。第二盘,德约调整状态,破掉了阿尔卡拉斯的第一个发球局,一度3-0领先。
20251008 ? 洗屋先生由于航天员月面作业和空间站出舱差异显著,因此登月服在细节的设计上和第二代“飞天”舱外航天服也有所不同。在月面出舱活动时,航天员处于真空、极端温差、月尘和辐射等恶劣环境下,登月服要对航天员提供综合防护,还要支持其完成行走、攀爬、驾车、科考等多种任务,对整个服装的工效、小型化和集成化提出了更高要求。女生溜溜身子视频大全这一机构汇聚了许多前瞻思想家,使得 Aschenbrenner 接触到“有效利他主义”(EA)运动圈子。EA 倡导用理性客观的方法将资源用于最大程度造福人类未来的事业,其中就包括防范AI风险。很快Aschenbrenner 就成为其中一员,并十分活跃。
洗屋先生
? 周丽娟记者 杜夏英 摄
20251008 ? 洗屋先生当然,零跑仍然非常依赖低价销量,虽然销量领先,但上半年领跑仍然是四家车企中营收最低的车企,跳出“平替”“性价比”的标签是零跑的重要任务,当然,零跑至少已经稳住了阵脚。小妹妹爱大棒棒免费观看电视剧一7乐结果显示,并非易用 AI 的部门才会导 入 AI,而是那些受到最大压力,且易于使用AI的部门会积极导入AI。说白了,从趋利避害的角度来看,所有职能部门的从业者都希望非标化,希望这块职能必须要依赖自己,但推动标准化,甚至引入AI的,还是那些承受压力最大的部门。一方面,法务、质量标准、采购、金融等职能部门的效率早已饱受诟病,他们也有条件导入AI,其积极似乎可以理解;另一方面,生产/业务/经营/运营、财务、人力资源这类职能则是因为难度太大,在导入AI上尚需努力;除此之外,办公室、战略、研发、审计监察因为种种原因,被从业者们导向了凭手感的操作,AI自然是难以渗透。
洗屋先生
? 白秀嵩记者 王希永 摄
? 帕金斯表示:“在我眼里,KD是历史上最好的得分手,我从没见过他这样的球员。他有7尺身高,在进攻端的效率很高,他的技能包很全面,我知道他做了什么,他付出了很多努力。”男生把困困放进女生困困
扫一扫在手机打开当前页