LMSYS Chatbot Arena:聊天机器人竞技场,全世界大模型排行榜名单

AI前沿5个月前发布 wanglu852
7,114 0 0
广告也精彩

LMSYS Chatbot Arena Leaderboard: 全面解析

LMSYS Chatbot Arena 是什么?

LMSYS Chatbot Arena 是一个由大众参与的开放平台,专门用于评估大型语言模型(LLMs)。该平台通过收集超过100万次的人类成对比较,利用Bradley-Terry模型对LLMs进行排名,并将模型评分以Elo等级显示。更多详细信息可参阅其研究论文。

如何查看完整的排行榜?

在LMSYS Chatbot Arena中,你可以查看完整的排行榜,其中包含97个模型,总计1,131,288票,最新更新日期为2024年5月16日。此外,还可以查看不同类别的排行榜,如编程、长用户查询等,这些类别目前处于预览阶段,可能会发生变化。LMSYS Chatbot Arena:聊天机器人竞技场,全世界大模型排行榜名单

如何参与投票和贡献数据?

用户可以在chat.lmsys.org上贡献自己的投票。此外,平台还提供了代码,用于在笔记本中重新创建排行榜表格和图表,鼓励用户参与和贡献数据。

排行榜中的模型如何排名?

排行榜中的模型排名(上界)是根据统计上优于目标模型的模型数量加一确定的。如果模型A的分数下界大于模型B的分数上界(在95%的置信区间内),则认为模型A统计上优于模型B。详细信息可参考图3中的模型分数置信区间可视化。

主要模型及其详细信息

以下是排行榜中一些主要模型的详细信息,包括排名、模型名称、Elo评分、95%置信区间、投票数、组织、许可证和知识截止日期。

模型详细信息示例

  • 排名:11
  • 模型:Phi-3-Mini-128k-Instruct
  • Elo评分:1287
  • 95%置信区间:+12/-14
  • 投票数:117532
  • 组织:Cognitive Computations
  • 许可证:Falcon-180B TII License
  • 知识截止日期:2023/10

如何引用此排行榜和数据集?

如果你发现LMSYS Chatbot Arena的排行榜或数据集对你有帮助,请引用以下论文:

© 版权声明
chatgpt4.0

相关文章

error: Content is protected !!