AI智能体基准测试存严重缺陷研究指出评估体系亟待完善

2025-07-15

当前AI智能体基准测试存在严重缺陷，包括测试漏洞导致智能体无需实际能力即可得分、评估标准不严谨、环境模拟不真实等问题。研究发现10个主流测试中有8个存在重大误判，如τ-bench让无操作智能体获得38%正确率，WebArena对错误答案误判。研究人员提出ABC检查清单，指出需改进任务和结果有效性，但现有测试普遍存在透明度不足、评估标准主观、环境过时等问题。

查看完整舆情解析

重要提示和声明

本页面内容由AI提炼生成，无法确保完全真实准确，不代表希财网官方立场，不构成投资建议。如需阅读详细说明，请点击此处

AI智能体基准测试存严重缺陷 研究指出评估体系亟待完善

理财有风险，投资需谨慎

AI智能体基准测试存严重缺陷研究指出评估体系亟待完善