logoChatGPT国内镜像中文交流-IntelliRealm
首页 留言 登录
Smaug 世界上最好的开源模型,可与 GPT-4 Turbo 相媲美

Llama-3 70b 是迄今为止最好的操作系统模型。今天,我们很高兴推出一个明显更好的模型,Smaug-Lllama-3-Instruct。首先,通过 Smaug,我们看到MT 工作台有了显着改进。该分数与人类评估相关。第一轮

smaug-70b 9.4 llama3-70b 9.2 gpt-4-turbo 9.37

第二轮

smaug-70b 9.0 llama3-70b 8..8 gpt-4-turbo 9.0

平均

smaug-70b 9.2 llama3-70b 9.0 gpt-4-turbo 9.18我对 MT-bench 和人类评估的最大批评是,它们只解决人类提出的简单提示。在现实世界中,代理任务需要复杂的推理和规划。 Arena Hard 是衡量法学硕士解决复杂任务能力的新基准。在此基准测试中,Smaug 显着优于 Llama-3,得分为56.7 ,而 Llama-3 的得分为41.1。Smaug

是目前全球最好的开源模型,可与 GPT-4 Turbo 相媲美。 (替代中的 Hf 链接)

开源远未消亡

上一篇:GPT-4o 与 GPT-4 与 Gemini 1.5 ⭐ — 性能分析
下一篇:Anthropic 推出 Claude 3.5 Sonnet
评论留言 (0条)