【通义实验室推出通用智能体评测基准PawBench】金十数据6月5日讯，通义实验室推出评测基准PawBench，v1.0版本已开源。它面向个人助理与通用智能体场景，将底座模型与运行框架（Harness）纳入同一评测体系。据介绍，PawBench不是单纯做一个模型排行榜，而是把“模型、Harness、任务”三者放在一起做交叉评测。

首页快讯详情

2026-06-05周五18:43:40

通义实验室推出通用智能体评测基准PawBench

金十数据6月5日讯，通义实验室推出评测基准PawBench，v1.0版本已开源。它面向个人助理与通用智能体场景，将底座模型与运行框架（Harness）纳入同一评测体系。据介绍，PawBench不是单纯做一个模型排行榜，而是把“模型、Harness、任务”三者放在一起做交叉评测。