[Beta测试] Alpaca-Plus系列模型回复效果改进预览 · ymcui/Chinese-LLaMA-Alpaca · Discussion #732 (original) (raw)

我们正在测试一项新的实验,以进一步提升Alpaca-Plus系列模型回复质量,本次重点提升早期模型回复内容过短的问题

现诚邀社区伙伴预览这些测试模型的输出,自愿参与模型效果评测,相关评价结果将用于模型选型参考,感谢各位的参与和支持。

测试入口:http://chinese-alpaca-beta.ymcui.com 或者 https://06e083044f906dda1f.gradio.live (投票已结束,感谢参与)

预览系统

本次预览系统均以Alpaca-Plus-7B、Alpaca-Plus-13B为基准模型,包括:

测试方法

我们搭建了一个简单的基于Gradio的Demo。系统将随机给出一个prompt以及随机两个系统的回复,用户可根据具体情况选择更好的回复(对于不确定的可跳过)。

温馨提示:按钮只需点击一次,请勿重复点击投票

评价指标:胜率、Elo评分(起始:1500等级)