mmlu_zh (original) (raw)

MMLU推理脚本

本项目在MMLU上测试了相关模型效果,其中验证集和测试集分别包含1.5K和14.1K个选择题,涵盖57个学科。接下来将介绍MMLU数据集的预测方法。

数据准备

MMLU官方指定路径下载评测数据集,并解压至data文件夹:

wget https://people.eecs.berkeley.edu/~hendrycks/data.tar
tar xf data.tar

运行预测脚本

运行以下脚本:

model_path=path/to/llama-3-chinese output_path=path/to/your_output_dir data_path=path/to/mmlu-data

cd scripts/mmlu python eval.py
--model_path ${model_path}
--data_dir ${data_path}
--save_dir ${output_path}
--ntrain 5
--use_flash_attention_2 \

参数说明

评测输出

模型预测完成后,输出日志最后一行会显示最终的分数:Average accuracy: 0.651,生成目录save_dir/results中储存了各学科解码的结果。