Fork me on GitHub

上交清华提出中文大模型的知识评估基准C-Eval,辅助模型开发而非打榜

以下文章来源于 https://zhuanlan.zhihu.com/p/631509203

ChatGPT 的出现,使中文社区意识到与国际领先水平的差距。近期,中文大模型研发如火如荼,但中文评价基准却很少。在 OpenAI GPT 系列 / Google PaLM 系列 / DeepMind Chinchilla 系列 / Anthropic Claude 系列的研发过程中,MMLU / MATH / BBH 这三个数据集

上交清华提出中文大模型的知识评估基准C-Eval,辅助模型开发而非打榜


本文地址:https://www.6aiq.com/article/1684816368909
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出