用于评估和比较LLM大模型的开放工具
H2 O EvalGPT是H2O.ai用于评估和比较LLM大模型的开放工具,它提供了一个平台来了解模型在大量任务和基准测试中的性能。无论你是想使用大模型自动化工作流程或任务,H2 O EvalGPT都可以提供流行、开源、高性能大模型的详细排行榜,帮助你为项目选择最有效的模型完成具体任务。
Chatbot Arena是一个大型语言...
一个适用于大语言模型的多层次多学科中文评估套件
Hugging Face推出的开源大模型排行榜
上海AI实验室推出的大模型开放评测体系
一个综合评估语言模型的平台
复旦大学NLP实验室推出的大模型评测基准