苹果的 ToolSandbox 揭示了严峻的现实：开源人工智能仍然落后于专有模型

0 60

Apple的研究团队开发了ToolSandbox，这是一个创新的基准测试工具，用于更全面地评估人工智能助手在现实世界中的表现。它包括三个关键要素：状态化交互、对话能力以及动态评估，这些都是其他基准测试中常常缺失的。ToolSandbox能够更真实地反映现实场景，例如测试AI助手是否理解在发送短信之前需要先启用设备的蜂窝服务。

通过ToolSandbox测试，研究人员发现专有AI模型在性能上明显优于开源模型，这与最近一些报告相反，后者认为开源AI正在迅速追赶专有系统。此外，研究发现即使是最先进的AI助手在处理涉及状态依赖、规范化（将用户输入转换为标准化格式）以及信息不足场景的复杂任务时也存在挑战。

这项研究还指出，模型规模并非总是与复杂现实世界任务中的更好性能相关。有时，更大的模型在特定场景下的表现甚至不如较小的模型。ToolSandbox的推出可能会对AI助手的开发和评估产生深远影响，帮助研究人员识别和解决当前AI系统的关键限制，从而为用户提供更可靠、更强大的AI助手。

最后，研究团队计划将ToolSandbox评估框架发布在Github上，邀请AI社区共同参与和完善这项工作。随着开源AI的快速发展，ToolSandbox等严格的基准测试工具将有助于区分炒作与现实，指导开发真正能够应对复杂现实世界任务的AI助手。

来源：venturebeat

# 柒柒快讯