cmmlu_zh (original) (raw)

CMMLU推理脚本

本项目在CMMLU评测数据集上测试了相关模型效果,其中测试集包含11K个选择题,涵盖67个学科。接下来将介绍CMMLU数据集的预测方法。

数据准备

CMMLU官方指定路径下载评测数据集,并解压至data文件夹:

wget https://huggingface.co/datasets/haonan-li/cmmlu/resolve/main/cmmlu_v1_0_1.zip
unzip cmmlu_v1_0_1.zip -d data

将data文件夹放置于本项目的scripts/cmmlu目录下。

运行预测脚本

运行以下脚本:

model_path=path/to/llama-3-chinese output_path=path/to/your_output_dir

cd scripts/cmmlu python eval.py
--model_path ${model_path}
--few_shot False
--with_prompt True
--output_dir ${output_path}
--input_dir data

参数说明

评测输出

{
    "arts": {
        "0": "A",
        "1": "B",
        ...
    },
      "nutration": {
        "0": "B",
        "1": "A",
        ...
      },
    ...
}
  "All": {
    "score": 0.39984458642721465,
    "num": 11582,
    "correct": 4631.0
  }

其中score为准确率,num为测试的总样本条数,correct为正确的数量。