[Beta测试] Alpaca-Plus系列模型回复效果改进预览 · ymcui/Chinese-LLaMA-Alpaca · Discussion #732 (original) (raw)

我们正在测试一项新的实验，以进一步提升Alpaca-Plus系列模型回复质量，本次重点提升早期模型回复内容过短的问题。

现诚邀社区伙伴预览这些测试模型的输出，自愿参与模型效果评测，相关评价结果将用于模型选型参考，感谢各位的参与和支持。

本次预览系统均以Alpaca-Plus-7B、Alpaca-Plus-13B为基准模型，包括：

我们搭建了一个简单的基于Gradio的Demo。系统将随机给出一个prompt以及随机两个系统的回复，用户可根据具体情况选择更好的回复（对于不确定的可跳过）。

评价指标：胜率、Elo评分（起始：1500等级）