OpenAI 最近发布的 GPT-4o 为人工智能语言模型以及我们与它们交互的方式的新时代奠定了基础。
最令人印象深刻的部分是支持与 ChatGPT进行实时交互并进行对话中断。
尽管现场演示过程中出现了一些小问题,但我对团队所取得的成就感到非常惊讶。
最棒的是,演示结束后,OpenAI 就允许访问 GPT-4o API。
在本文中,我将使用我创建的英语数据集展示我的独立分析,该分析衡量了GPT-4o 与 GPT 4 与谷歌的 Gemini 和 Unicorn模型的分类能力。
以下哪一个模型在英语理解方面最强?
GPT-4o 有什么新功能?
最前沿的是Omni 模型的概念,旨在无缝理解和处理文本、音频和视频。
OpenAI 的重点似乎已转向将 GPT-4 级别的智能普及到大众,使得免费用户也可以使用 GPT-4 级别的语言模型智能。
OpenAI 还宣布,GPT-4o 涵盖50 多种语言,质量和速度均有所提升,有望以更低的价格提供更具包容性、全球可访问的 AI 体验。
他们还提到,付费用户将获得非付费用户的五倍容量。
此外,他们还将发布 ChatGPT 的桌面版,以方便大众进行跨音频、视觉和文本界面的实时推理。
如何使用 GPT-4o API
新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API,GPT-4o 也可以通过 ChatGPT 界面使用
官方评估
OpenAI 的博客文章包含已知数据集的评估分数,例如 MMLU 和 HumanEval。
从图中我们可以看出,GPT-4o 的性能可以归类为该领域最先进的——考虑到新模型更便宜、更快,这听起来非常有希望。
然而,在过去的一年里,我看到了多个声称在已知数据集上拥有最先进语言性能的模型。
事实上,其中一些模型只是在这些开放数据集上进行了部分训练(或过度拟合),导致排行榜上的得分不切实际。如果您感兴趣,请参阅本文。
因此,使用鲜为人知的数据集(比如我创建的数据集)对这些模型的性能进行独立分析非常重要。