北大伯克利联合测试显示AI数据分析能力不足 顶尖模型成功率仅40%
2025-06-10
北大与伯克利联合发布IDA-Bench测试基准,评估大模型在多轮交互数据分析中的表现。结果显示,Claude-3.7、Gemini-2.5 Pro等顶尖模型成功率不足50%,暴露出AI在遵循复杂指令、处理动态任务时存在明显短板,包括代码执行错误、格式问题、过度自信或谨慎等行为缺陷。该测试揭示了当前AI智能体在实际协作场景中的可靠性不足。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
