用于评估和比较LLM大模型的开放工具
H2 O EvalGPT是H2O.ai用于评估和比较LLM大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2 O EvalGPT都可以提供流行、开源、高性能大模型的详细排行榜,帮助你为项目选择最有效的模型完成具体任务。
上海AI实验室推出的大模型开放评测体系
Hugging Face推出的开源大模型排行榜
复旦大学NLP实验室推出的大模型评测基准
一个多模态模型评估平台
一个中文通用大模型综合性测评基准
Chatbot Arena是一个大型语言...