ceval_zh (original) (raw)

C-Eval推理脚本

本项目在C-Eval评测数据集上测试了相关模型效果,其中测试集包含12.3K个选择题,涵盖52个学科。接下来将介绍C-Eval数据集的预测方法。

数据准备

C-Eval官方指定路径下载评测数据集,并解压至data文件夹:

wget https://huggingface.co/datasets/ceval/ceval-exam/resolve/main/ceval-exam.zip
unzip ceval-exam.zip -d data

data文件夹放置于本项目的scripts/ceval目录下。

运行预测脚本

运行以下脚本:

model_path=path/to/llama-3-chinese output_path=path/to/your_output_dir

cd scripts/ceval python eval.py
--model_path ${model_path}
--few_shot False
--with_prompt False
--n_times 1
--ntrain 5
--do_save_csv False
--do_test False
--output_dir ${output_path} \

参数说明

评测输出

{  
    "computer_network": {  
        "0": "A",  
        "1": "B",  
        ...  
    },  
      "marxism": {  
        "0": "B",  
        "1": "A",  
        ...  
      },  
    ...  
}  

⚠️ 注意,当在测试集上预测时(do_test=True),因为没有测试集标签,scorecorrect将为0,为正常现象。 测试集结果需要将submission.json文件提交至C-Eval官方进行获取,具体请参考C-Eval官方提交流程。