阿里千问推出DeepPlanning基准测试，顶尖AI模型仍有短板

淮北: 阿里千问推出DeepPlanning基准测试，顶尖AI模型仍有短板
时间：2026-04-28 07:13:39 作者：동료(陪伴)_dDQK 来源：淮北查看：评论：0
内容摘要：11月15日讯在今天凌晨进行的国家队热身赛中，阿根廷2-0
IT之家 1 月 30 日消息，阿里千问今天在公众号平台发文，宣布推出新一代 Agent 基准测试 DeepPlanning。
据介绍，DeepPlanning 与传统的推理任务截然不同，要求 AI 在面对现实世界的复杂规划时通盘考虑，不能只专注于局部。
例如：多日旅行规划要精确到分钟级排期，同时守住时间、预算的硬上限；复杂购物场景要懂得叠加优惠券、知道如何动态组合商品才能满减，以实现整体价格最优。而且这些“硬要求”不只是让 AI 单纯在哪一步完成就好，必须贯穿整个计划始终。
最终实测结果表明，即使是目前顶尖的 GPT-5.2、Claude 4.5、Gemini 以及 Qwen 3 模型，在全局优化以及长周期一致性上仍存在部分短板，距离真正成为拥有 100% 自主决策能力的“行动派”还有一定距离。
值得注意的是，阿里千问还在 Hugging Face 和 ModelScope 平台开源了这款基准，IT之家附上链接如下：
HuggingFace：https://huggingface.co/datasets/Qwen/DeepPlanningModelScope ：https://www.modelscope.cn/datasets/Qwen/DeepPlanning
{loop type="arclist" row=1 }{$vo.title}