LMSYS Chatbot Arena Leaderboard: 全面解析
LMSYS Chatbot Arena 是什么?
LMSYS Chatbot Arena 是一个由大众参与的开放平台,专门用于评估大型语言模型(LLMs)。该平台通过收集超过100万次的人类成对比较,利用Bradley-Terry模型对LLMs进行排名,并将模型评分以Elo等级显示。更多详细信息可参阅其研究论文。
如何查看完整的排行榜?
在LMSYS Chatbot Arena中,你可以查看完整的排行榜,其中包含97个模型,总计1,131,288票,最新更新日期为2024年5月16日。此外,还可以查看不同类别的排行榜,如编程、长用户查询等,这些类别目前处于预览阶段,可能会发生变化。
如何参与投票和贡献数据?
用户可以在chat.lmsys.org上贡献自己的投票。此外,平台还提供了代码,用于在笔记本中重新创建排行榜表格和图表,鼓励用户参与和贡献数据。
排行榜中的模型如何排名?
排行榜中的模型排名(上界)是根据统计上优于目标模型的模型数量加一确定的。如果模型A的分数下界大于模型B的分数上界(在95%的置信区间内),则认为模型A统计上优于模型B。详细信息可参考图3中的模型分数置信区间可视化。
主要模型及其详细信息
以下是排行榜中一些主要模型的详细信息,包括排名、模型名称、Elo评分、95%置信区间、投票数、组织、许可证和知识截止日期。
模型详细信息示例
- 排名:11
- 模型:Phi-3-Mini-128k-Instruct
- Elo评分:1287
- 95%置信区间:+12/-14
- 投票数:117532
- 组织:Cognitive Computations
- 许可证:Falcon-180B TII License
- 知识截止日期:2023/10
如何引用此排行榜和数据集?
如果你发现LMSYS Chatbot Arena的排行榜或数据集对你有帮助,请引用以下论文:
© 版权声明
文章版权归作者所有,未经允许请勿转载。