C-Eval

C-Eval

一个适用于大语言模型的多层次多学科中文评估套件

标签：AI模型评测

链接直达手机查看

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件，旨在提供一个全面的评估框架，以评估中文语言模型在不同领域和任务上的性能。

C-Eval

C-Eval的主要功能：

1. 多层次评估：C-Eval提供了多个层次的评估指标，包括整体评估、领域评估和任务评估，可以全面评估模型在不同层次上的表现。

2. 多学科评估：C-Eval涵盖了STEM（科学、技术、工程和数学）、社会科学、人文科学和其他领域的评估指标，可以评估模型在不同学科上的表现。

3. 结果提交：用户可以通过C-Eval的结果提交功能，提交模型的预测结果进行评估，并获得相应的评估分数。

相关导航

H2O LLM Eval

H2O LLM Eval

用于评估和比较LLM大模型的开放工具

LLMEval3

复旦大学NLP实验室推出的大模型评测基准

SuperCLUE

一个中文通用大模型综合性测评基准

CMMLU

一个用于评估中文语言模型的综合性基准

OpenCompass

OpenCompass

上海AI实验室推出的大模型开放评测体系

MMBench

一个多模态模型评估平台

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号