百度搭子DuMate一天连登PinchBench与DeepResearch双榜首 成全球最能打的龙虾
荆楚网(湖北日报网)讯(通讯员 杜轩)5月8日凌晨,百度百度搭子DuMate登顶智能体评测基准PinchBench榜首,搭D打并在前5位中占据3席,连登龙虾超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。双榜首成在另外一项DeepResearch深度研究榜单中,全球DuMate同样位列第一。百度 PinchBench是搭D打OpenClaw赛道最能体现Agent真实工作能力的评测基准,重点考察Agent在23个真实工作场景下147个任务的连登龙虾多步推理、工具调用和任务闭环能力,双榜首成并从成功率、全球速度、百度成本三个维度综合排名。搭D打榜单显示,连登龙虾DuMate以93.3%和93.2%的双榜首成总成绩包揽前两名。作为对照,全球Anthropic和OpenAI的同款模型场景下的成绩分别为89.0%和91.6%。这意味着,同一模型在DuMate框架中,展现出更强的执行力。 百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图 超越原生表现的技术基础,是DuMate的端云协同Harness架构。该系统在任务到达时进行意图识别和敏感度判断,隐私相关操作留在本地执行,复杂推理任务上云完成,无需用户手动切换。同时,系统对每次执行所需的上下文做按需组装——根据任务语义和用户历史行为,预判并注入必要的背景信息,减少冗余干扰。Harness与Skills还基于历史执行轨迹持续迭代,使得不同底层模型都能在接近其能力上限的状态下稳定运行。 DeepResearch Bench是当前对深度研究型Agent最全面的评测基准,从洞察深度、内容准确性、可读性等维度考察Agent处理复杂研究任务的综合能力。DuMate以58.03的综合分位列第一,支撑这一成绩的是DuMate自研Skills体系中的Deep Search与Deep Research双引擎——前者负责跨平台语义检索与高价值信息定位,后者在此基础上叠加多轮推理与因果分析,将碎片信息提炼为结构化研究成果。 百度搭子DuMate登顶智能体评测基准PinchBench榜首。通讯员供图 自2026年3月上线以来,DuMate保持一天一版的更新节奏,已通过信通院两项安全测评且均获最高等级。

- 最近发表
- 随机阅读
-
- OPPO就“母亲节营销文案”再致歉:对相关管理者从严处罚
- 新华三携新品入局词元经济
- 最高补贴8000元!“武汉造”汽车组团亮相成都
- 射箭世界杯上海站中国队2金2银1铜收官
- 追梦人|在“三江两极”当警察的年轻人
- 世界纪录!吴江福地!
- 闽超资讯 | 今晚,福州队、厦门队、漳州队胜出!最新积分榜出炉→
- (体育)网球——ATP1000罗马站:兹韦列夫晋级16强
- 太嚣张!广东一男子加满价值640元的油后,竟拒不付款、猛踩油门逃离现场,逃窜时同行人还对监控“比耶”;警方:嫌疑人彭某目前已被行拘
- 伊朗已回应美国提出的结束战争方案
- “14岁男孩杀害15岁女同学案”新进展:被告无期徒刑,判决已生效;女孩父亲:将起诉事发当晚参与聚会的11人
- “大睡特睡”能修复大脑?医生:黄金修复期就这4小时,错过多睡也白费
- 无忧传媒宣布与“孕妇泰国坠崖案”当事人王暖暖解约;此前王暖暖称被公司压榨,拍摄过程中突然惊厥,一年直播100多场,承受巨大工作量
- 紧急!孕妇服务区突然临产,贵州加油站员工,用一条毛巾“接住了”新生命……
- 山东省住房和城乡建设厅组织“匠心·筑建 青续华章”青年主题实践活动
- 光山县气象台发布大风蓝色预警[IV级/一般] 【2026-05-10】
- 5·17世界电信日|让AI从“云端”走进烟火人间 上海电信“匠心”织就AI之城底座
- 特朗普称美一直在监控伊朗浓缩铀
- 抚宁区气象台更新雷电黄色预警[III级/较重] 【2026-05-10】
- 新华三携新品入局词元经济
- 搜索
-
- 友情链接
-