用于评估和比较LLM大模型的开放工具
复旦大学NLP实验室推出的大模型评测基准
Chatbot Arena是一个大型语言...
一个综合评估语言模型的平台
一个多模态模型评估平台
一个用于评估中文语言模型的综合性基准
上海AI实验室推出的大模型开放评测体系
一个中文通用大模型综合性测评基准
智源研究院推出的大模型测评平台
一个适用于大语言模型的多层次多学科中文评估套件
Hugging Face推出的开源大模型排行榜
个用于评估多任务语言理解模型性能的基准测试