北大伯克利联合测试揭示AI数据分析能力短板,顶尖模型成功率仅40%
2025-06-10
北大邓小铁课题组与加州大学伯克利分校联合推出IDA-Bench测试基准,评估大模型在多轮交互数据分析场景的能力。测试显示,Claude-3.7、Gemini-2.5 Pro等顶尖模型成功率不足50%,暴露出模型在遵循动态指令、代码执行、错误处理等方面存在显著缺陷。研究揭示当前AI在真实数据分析协作场景中的可靠性不足,尤其在复杂任务迭代过程中表现不稳定。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表希财网官方立场,不构成投资建议。如需阅读详细说明,请点击此处
