FlagEval

FlagEval

智源研究院推出的大模型测评平台

标签：AI模型评测

链接直达手机查看

FlagEval（天秤）由智源研究院将联合多个高校团队打造，是一种采用“能力一任务一指标”三维评测框架的大模型评测平台，旨在提供全面、细致的评测结果。该平台已提供了30多种能力、5种任务和4大类指标，共600多个维度的全面评测，任务维度包括22个主客观评测数据集和84433道题目。

FlagEval

相关导航

SuperCLUE

一个中文通用大模型综合性测评基准

HELM

一个综合评估语言模型的平台

MMBench

一个多模态模型评估平台

Open LLM Leaderboard

Open LLM Leaderboard

Hugging Face推出的开源大模型排行榜

CMMLU

一个用于评估中文语言模型的综合性基准

C-Eval

一个适用于大语言模型的多层次多学科中文评估套件

暂无评论

暂无评论...

一站式AI信息服务平台：AI工具大全、AI每日快讯、AI项目库、AI融资快报、AI研究报告、AI教程、AI副业、AI考证等。助您全面系统了解AI、使用AI

关于我们广告合作免责声明柒柒快讯

Copyright © 2025 柒柒AI导航粤ICP备2023146609号-1

粤公网安备44011102483711号