多模态AI大考不及格!头部产品总分不足40,复杂任务成最大绊脚石
2025-04-30
SuperCLUE发布中文通用AI智能体测评基准AgentCLUE—General,测评8款国内外产品。结果显示,最高分ManusStarter总分仅38.46分,整体能力处于基础阶段。复杂多步骤任务(Level 2/3)得分率骤降,多模态理解和多场景组合能力薄弱,最高分分别仅21.43和36.36。结构化数据分析和联网检索表现较好,但非结构化数据处理及多模态任务成为主要短板。测评指出当前技术与通用智能体理想状态差距显著,复杂现实任务处理能力亟待提升。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
