Apple的研究团队开发了ToolSandbox,这是一个创新的基准测试工具,用于更全面地评估人工智能助手在现实世界中的表现。它包括三个关键要素:状态化交互、对话能力以及动态评估,这些都是其他基准测试中常常缺失的。ToolSandbox能够更真实地反映现实场景,例如测试AI助手是否理解在发送短信之前需要先启用设备的蜂窝服务。
通过ToolSandbox测试,研究人员发现专有AI模型在性能上明显优于开源模型,这与最近一些报告相反,后者认为开源AI正在迅速追赶专有系统。此外,研究发现即使是最先进的AI助手在处理涉及状态依赖、规范化(将用户输入转换为标准化格式)以及信息不足场景的复杂任务时也存在挑战。
这项研究还指出,模型规模并非总是与复杂现实世界任务中的更好性能相关。有时,更大的模型在特定场景下的表现甚至不如较小的模型。ToolSandbox的推出可能会对AI助手的开发和评估产生深远影响,帮助研究人员识别和解决当前AI系统的关键限制,从而为用户提供更可靠、更强大的AI助手。
最后,研究团队计划将ToolSandbox评估框架发布在Github上,邀请AI社区共同参与和完善这项工作。随着开源AI的快速发展,ToolSandbox等严格的基准测试工具将有助于区分炒作与现实,指导开发真正能够应对复杂现实世界任务的AI助手。
来源:venturebeat
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...