清华新测试揭示多模态AI短板 密室逃脱通关率不足半数
2025-07-12

多
多模态AI
正面
查看报告
清华大学团队提出EscapeCraft评测多模态AI模型,通过3D密室逃脱任务测试模型的空间推理能力。实验显示多模态大模型存在明显短板,GPT-4o等在难度3任务中仅有26.5%的子目标达成是真正理解完成,国产模型Doubao在简单关卡表现突出。评测发现模型普遍存在视觉感知错误和推理逻辑错误,暴露AI在复杂多步骤任务中的决策能力缺陷。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
