WiS平台：阿里推出的评估LLM多智能体系统工具

2-5.应用工具其他4周前更新 AI-77

0 100

WiS简介

WiS（Who is Spy?）平台是由阿里巴巴的淘宝和天猫团队开发的一款创新工具，旨在通过基于游戏的分析方法，增强对基于大型语言模型（LLMs）的多智能体系统（MAS）的评估。该平台以其开放性、可扩展性和实时更新功能为特色，提供了一个统一的模型评估接口，并支持Hugging Face上的模型。通过实时更新的排行榜和全面的评估体系，WiS平台能够深入分析游戏胜率、攻击、防御策略以及LLMs的推理能力，从而推动MAS领域的研究进展。

WiS平台：阿里推出的评估LLM多智能体系统工具

WiS主要功能

模型评估接口：提供统一的API接口，支持Hugging Face上的多种大型语言模型（LLMs），用户可以方便地接入和评估不同模型的性能。
实时更新的排行榜：平台设有动态排行榜，实时展示各个模型在游戏中的表现，包括胜率、得分和其他关键指标，帮助用户了解模型的相对能力。
全面的评估体系：评估内容涵盖游戏胜率、攻击和防御策略、推理能力等，能够深入分析模型在复杂交互环境中的表现。
可视化功能：提供“观察列表”功能，用户可以回顾游戏过程，查看比赛详情、结果和玩家统计数据，增强用户体验。
用户友好的代理构建：用户可以轻松创建自定义代理，使用Hugging Face上的模型，支持快速构建和测试智能体。
社区与共享：用户可以访问其他用户创建的代理代码，分享和借鉴不同的实现方案，促进社区合作与学习。

WiS技术原理

多智能体系统（MAS）：基于多智能体系统的设计，WiS平台允许多个智能体在同一环境中进行交互和竞争，模拟真实的社交推理和决策过程。
游戏机制：采用“谁是卧底”游戏规则，通过角色扮演和信息交流，测试和评估模型的推理、攻击和防御能力。
动态评分系统：引入创新的评分机制，确保游戏过程中的得分与角色表现相匹配，激励智能体在游戏中采取有效策略。
实验与数据分析：通过大量实验，收集不同模型在游戏中的表现数据，利用统计分析方法评估模型的能力和行为特征。
开放平台架构：采用开放的架构设计，支持用户自定义模型和功能扩展，促进平台的灵活性和可扩展性。

WiS应用场景

多智能体系统评估：用于评估和分析基于LLMs的多智能体系统在复杂任务中的表现和协作能力。
社会行为模拟：模拟和分析社会行为，如合作、竞争和欺骗，以研究智能体在社会互动中的行为模式。
语言模型性能测试：测试和比较不同LLMs在语言理解、表达和推理方面的能力。
人工智能教育与培训：作为教学工具，帮助学生和研究人员理解LLMs的工作原理和应用。
游戏化学习环境：创建互动式学习环境，通过游戏化的方式提高学习者对AI和机器学习概念的理解。
智能体策略优化：通过模拟对抗和合作场景，优化智能体的决策策略，提高其在实际应用中的效率和效果

WiS项目入口

项目主页：https://whoisspy.ai/
arXiv技术论文：https://arxiv.org/pdf/2412.03359

# 2-5.应用工具其他 # 2.应用工具相关 # AI项目库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

FunASR：阿里巴巴达摩院开源的语音识别工具包

AI-77cn

10

OpenCity ：用于交通预测的时空基础模型

AI-77cn

50

EzAudio：将文本描述转换为相应逼真的音频内容

AI-77cn

50

NotaGen：中央音乐学院等推出的音乐生成模型

AI-77cn

80

英伟达【NVIDIA】开源3400亿参数大模型Nemotron-4 340B

AI-77cn

10

MVDrag3D：能够在多个正交视图上进行一致的3D拖拽编辑

AI-77cn

80

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号