[Beta测试] Alpaca-Plus系列模型回复效果改进预览 · ymcui/Chinese-LLaMA-Alpaca · Discussion #732 (original) (raw)
我们正在测试一项新的实验,以进一步提升Alpaca-Plus系列模型回复质量,本次重点提升早期模型回复内容过短的问题。
现诚邀社区伙伴预览这些测试模型的输出,自愿参与模型效果评测,相关评价结果将用于模型选型参考,感谢各位的参与和支持。
测试入口:http://chinese-alpaca-beta.ymcui.com 或者 https://06e083044f906dda1f.gradio.live (投票已结束,感谢参与)
预览系统
本次预览系统均以Alpaca-Plus-7B、Alpaca-Plus-13B为基准模型,包括:
- 基线:原版Alpaca-Plus-7B、Alpaca-Plus-13B(已发布)
新版测试模型alpha/beta/gamma/theta(测试已结束)- 新版测试系统7B、新版测试系统13B
测试方法
我们搭建了一个简单的基于Gradio的Demo。系统将随机给出一个prompt以及随机两个系统的回复,用户可根据具体情况选择更好的回复(对于不确定的可跳过)。
温馨提示:按钮只需点击一次,请勿重复点击投票
评价指标:胜率、Elo评分(起始:1500等级)
