inference_with_transformers_zh (original) (raw)

使用transformers进行推理

我们提供了命令行方式使用原生🤗transformers进行推理。下面以加载Llama-3-Chinese-Instruct模型为例说明启动方式。

使用transformers库推理

下载完整版权重之后,按以下命令启动脚本。

python scripts/inference/inference_hf.py
--base_model path_to_llama3_chinese_instruct_hf_dir
--with_prompt
--interactive

使用vLLM进行推理加速

可以使用vLLM作为LLM后端进行推理,需要额外安装vLLM库。

只需在原本的命令行上添加--use_vllm参数

python scripts/inference/inference_hf.py
--base_model path_to_llama3_chinese_instruct_hf_dir
--with_prompt
--interactive
--use_vllm

参数说明

注意事项

该脚本仅为方便快速体验用,并未对推理速度做优化。