【新智元导读】首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以满足工程一线需求。
这些号称「专家级」的大模型,能不能真的下工地?能不能帮工程打工人减负?在钢筋水泥的图纸世界里,它们是得力助手,还是纸上谈兵?
来自加拿大麦吉尔大学AIS实验室的研究团队与加州大学圣芭芭拉分校(UCSB)合作,正式推出面向工程自动化任务的大模型评估基准——DrafterBench。
这是首个针对「一线工程图纸修改任务」设计的大规模评测套件,旨在验证和揭示现有LLMs能否胜任土木工程等领域中真实的「打工任务」。
每天成千上万的一线工程师、制图员在重复地处理「改一根梁的位置」「把这根管道直径加粗一点」「为这个构件增加标注」这类十分琐碎但又关系重大的任务。
这类工作往往工作量大、标准高、容错低,但技术门槛不高,对工作者在「任务理解、细节处理、任务链配合」方面的综合执行力要求极强。
DrafterBench以图纸修改为核心任务,在20个真实项目中收集并设计了1920个高质量任务,涵盖12类指令类型,模拟了各种难度、不同风格的真实工程命令。
所有工具都有一份「替身」,不实际修改图纸,但记录调用顺序、参数值、变量状态,并以结构化JSON形式输出,清晰还原模型「行动路径」。
但在工具调用方面,准确率波动明显,平均可达9个百分点。对于指令跟随能力,部分模型表现出较强的任务承载能力,如OpenAI o1和Claude3.5 Sonnet抗噪声能力较好,能保持基本的任务完整性。
结果表明,模型常见错误类型包括参数定义不清、变量传递失败、函数调用结构错乱、工具选择偏差以及多工具组合逻辑混乱。
这些评估结果说明,尽管当前的大模型已有一定能力拆解复杂任务结构、调用工程工具,但它们仍难以稳健掌握完整任务链的所有细节,对实际场景的适应能力尚不足以支撑工程一线需求。
接下来,研究团队还将扩展任务类型至图纸校审、规范检测、施工日志智能生成等更多工程应用场景,持续拓展模型能力边界。
GOGOGO大但人文艺术创作背景下载更令人遗憾的是,与其他国家足协的类似情况下,交流均在相互信任、以球员最高利益为重的氛围中顺利进行。此类医疗协调缺失仅出现在法国国家队层面。零售的本质是商品的竞争,自有品牌是核心竞争力之一,盒马一开始便参透这点。从“基于消费者洞察和品牌升级,将所有商品重做一遍”的初始基调,便能瞧出其前瞻性。GOGOGO大但人文艺术创作背景下载免费观看已满十八岁电视剧下载安装Aschenbrenner本人在AGI这件事情上到底有多激进呢?他甚至曾经提议过美国必须将 AI 上升为类似“曼哈顿计划”的国家级优先战略,建立“AGI 工业复合体”。0-2落后陷入绝境的德约科维奇,在盘间休赛时申请了理疗师入场,对肩膀进行了按摩放松。然而第3盘,德约还是没能扭转局面。阿尔卡拉斯两破德约发球局,6-2再胜一盘,大比分3-0获得全场比赛胜利。阿尔卡拉斯终于终结了对德约的2连败,交手记录改写为4-5。
20251019 ? GOGOGO大但人文艺术创作背景下载在发射成功第二日,中国军网向外界公开了发射洲际导弹的照片,这是解放军近40年来罕见公开现役新型洲际导弹发射照片。但这次发射官方也没有公布导弹型号和射程。中国曾在过去多次阅兵式展示过三种洲际导弹:东风-5系列、东风-31系列和东风-41。蘑菇短视频app免费版本下载严姗姗是香港乃至国内第一位女演员。在《庄子试妻》里,饰演庄子夫人的婢女。夫人的扮演者正是黎民伟,他个子不高,容颜清秀,反串女性角色很自然。
? 吴昊记者 刘雪梅 摄
20251019 ? GOGOGO大但人文艺术创作背景下载窦唯与妈妈一起居住,有一只小狗相伴;经常去菜市场挑选新鲜的食材,有时独自坐在街角的咖啡馆。去面馆吃面;窦唯仍然有创作演唱;平时骑电动车出行,背着帆布包。《麻花传剧原创mv在线看完整版高清》他参与过许多吸人事故的鉴定。有管理者因为漏水或排水口损坏,干脆就把其中一个排水口的盖板给拆了,彻底堵上,这样一来,两个排水口变成了一个,大大增加了吸人事故的风险。也有管理者没有发现排水盖板已经破裂、进行更换,有人一脚踩下去,便被卡在了部分破碎的盖板中。
? 侯潮记者 刘建华 摄
? 如果首轮比赛能提供任何关于桑德罗·瓦格纳如何担任奥格斯堡主教练这一新角色的线索,那么这场3-1战胜弗赖堡的意外胜利,绝对体现了他对球员能力和位置安排的敏锐直觉。他在赛后总结道:“我们的计划奏效了。”抖阳