mmlu_zh (original) (raw)
MMLU推理脚本
本项目在MMLU上测试了相关模型效果,其中验证集和测试集分别包含1.5K和14.1K个选择题,涵盖57个学科。接下来将介绍MMLU数据集的预测方法。
数据准备
从MMLU官方指定路径下载评测数据集,并解压至data文件夹:
wget https://people.eecs.berkeley.edu/~hendrycks/data.tar
tar xf data.tar
运行预测脚本
运行以下脚本:
model_path=path/to/llama-3-chinese output_path=path/to/your_output_dir data_path=path/to/mmlu-data
cd scripts/mmlu
python eval.py
--model_path ${model_path}
--data_dir ${data_path}
--save_dir ${output_path}
--ntrain 5
--use_flash_attention_2 \
参数说明
model_path:待评测模型所在目录(完整的Llama-3-Chinese或Llama-3-Chinese-Instruct模型,非LoRA)data_dir: 评测数据集所在目录ntrain:指定few-shot实例的数量(5-shot:ntrain=5,0-shot:ntrain=0)save_dir:指定评测结果的输出路径do_test:在valid或test集上测试:当do_test=False,在valid集上测试;当do_test=True,在test集上测试use_flash_attention_2:使用flash-attn2加速推理,否则使用SDPA加速。
评测输出
模型预测完成后,输出日志最后一行会显示最终的分数:Average accuracy: 0.651,生成目录save_dir/results中储存了各学科解码的结果。