mmlu_zh (original) (raw)

MMLU推理脚本

本项目在MMLU上测试了相关模型效果，其中验证集和测试集分别包含1.5K和14.1K个选择题，涵盖57个学科。接下来将介绍MMLU数据集的预测方法。

从MMLU官方指定路径下载评测数据集，并解压至data文件夹：

wget https://people.eecs.berkeley.edu/~hendrycks/data.tar
tar xf data.tar

运行以下脚本：

model_path=path/to/llama-3-chinese output_path=path/to/your_output_dir data_path=path/to/mmlu-data

cd scripts/mmlu python eval.py
--model_path ${model_path}
--data_dir ${data_path}
--save_dir ${output_path}
--ntrain 5
--use_flash_attention_2 \

模型预测完成后，输出日志最后一行会显示最终的分数：Average accuracy: 0.651，生成目录save_dir/results中储存了各学科解码的结果。