C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,旨在提供一个全面的评估框架,以评估中文语言模型在不同领域和任务上的性能。
C-Eval的主要功能:
1. 多层次评估:C-Eval提供了多个层次的评估指标,包括整体评估、领域评估和任务评估,可以全面评估模型在不同层次上的表现。
2. 多学科评估:C-Eval涵盖了STEM(科学、技术、工程和数学)、社会科学、人文科学和其他领域的评估指标,可以评估模型在不同学科上的表现。
3. 结果提交:用户可以通过C-Eval的结果提交功能,提交模型的预测结果进行评估,并获得相应的评估分数。