AI模型评测

C-Eval

一个适用于大语言模型的多层次多学科中文评估套件

标签:
pANYPDP.jpg
pANYIIS.jpg

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件,旨在提供一个全面的评估框架,以评估中文语言模型在不同领域和任务上的性能。

C-Eval

C-Eval的主要功能:

1. 多层次评估:C-Eval提供了多个层次的评估指标,包括整体评估、领域评估和任务评估,可以全面评估模型在不同层次上的表现。

2. 多学科评估:C-Eval涵盖了STEM(科学、技术、工程和数学)、社会科学、人文科学和其他领域的评估指标,可以评估模型在不同学科上的表现。

3. 结果提交:用户可以通过C-Eval的结果提交功能,提交模型的预测结果进行评估,并获得相应的评估分数。

相关导航

暂无评论

暂无评论...