GPT-4o与GPT-4-turbo 10项能力对比测评！GPT-4o

AI前沿1年前 (2024)发布 wanglu852

100,080 0 0

GPT-4o与GPT-4的十项能力对比测评

引言

在GPT-4o的发布后，我们对其进行了十项能力的测评，旨在探究其在中文场景下的表现是否能超越GPT-4。本次测评参考了中文通用大模型综合性基准SuperCLUE，并对比了GPT-4o与GPT-4在语义理解与抽取、AI agent（智能体）能力、上下文对话、生成与创作、知识与百科、代码、逻辑与推理、计算、角色扮演、安全等十个方面的表现。

测评体系

SuperCLUE是一个包含开放域多轮交互（OPEN）、客观题形式的三大能力（SuperCLUE-Opt）以及众包匿名对战形式的基准琅琊榜（SuperCLUE-LYB）的评测体系。它通过多维度、多视角、多层次的评测体系以及对话的形式，真实模拟大模型的应用场景。

测评内容

能力1：语义理解与抽取

GPT-4o表现 ：GPT-4o在语义理解与抽取方面表现出色，其输出的二级排版清晰，能够直接复制使用，结构更加清晰，便于快速获取要点。

能力2：AI agent（智能体）能力

GPT-4o表现 ：GPT-4o在AI agent能力方面，特别是在工具使用和任务规划上，能够给出准确的时间表和价目表，生成的计划更像是可以立即执行的任务拆分。

能力3：上下文对话

GPT-4o表现 ：GPT-4o在上下文对话方面，能够给出对话轮次，并能很好地记住历史记录，与GPT-4的体验相差不大。

能力4：生成与创作

GPT-4o表现 ：GPT-4o在生成与创作方面，更懂中文，使用更加熟悉的四字词语和排列句等创作文案，不再是简单地加入情感词来提升同情度。

能力5：知识与百科

GPT-4o表现 ：GPT-4o在知识与百科方面，输出更好，能够对物品的介绍内容进行分段，并引用参考资料。

能力6：代码

GPT-4o表现 ：GPT-4o在代码方面，生成代码后的解析会带上对应的变量，阅读体验友好。

能力7：逻辑与推理

GPT-4o表现 ：GPT-4o在逻辑与推理方面，按步骤按点的推理过程非常友好，便于理解。

能力8：计算

GPT-4o表现 ：GPT-4o在计算方面，计算结果正确，显示效果更好，无需担心排版问题。

能力9：角色扮演

GPT-4o表现 ：GPT-4o在角色扮演方面，能够直接给出用户想要的聊天内容，表现更胜一筹。

能力10：安全

GPT-4o表现 ：GPT-4o在安全方面，GPT-4的输出内容引用了论文，可靠程度比GPT-4o要好。

结论

GPT-4o在多个方面的表现超越了GPT-4，特别是在语义理解与抽取、AI agent能力、生成与创作等方面。GPT-4o的更新速度快，其带来的惊喜不仅仅在于实时语音交流，更在于对复杂提示语需求的减少，使得使用门槛降低，更接近理想中的人工智能助手贾维斯。期待GPT-4o在未来能够带来更多的便利和创新。

‍

我认为：GPT-4o的发布标志着人工智能技术在中文场景下的又一次飞跃。它不仅在技术上实现了突破，更在用户体验上做出了显著的改进。GPT-4o的出现，让我们看到了人工智能助手在日常生活中的无限可能，它不再是冰冷的代码，而是能够理解我们、帮助我们的智能伙伴。随着技术的不断进步，我们有理由相信，未来的AI将更加智能、更加贴心，成为我们生活中不可或缺的一部分。