
上交清华提出中文大模型的知识评估基准C-Eval,辅助模型开发而非打榜
以下文章来源于 https://zhuanlan.zhihu.com/p/631509203
ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文大模型研发如火如荼,但中文评价基准却很少。在 OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中,MMLU / MATH / BBH 这三个数据集
上交清华提出中文大模型的知识评估基准C-Eval,辅助模型开发而非打榜