Llama-3 70b 是迄今为止最好的操作系统模型。今天,我们很高兴推出一个明显更好的模型,Smaug-Lllama-3-Instruct。首先,通过 Smaug,我们看到MT 工作台有了显着改进。该分数与人类评估相关。第一轮
smaug-70b 9.4 llama3-70b 9.2 gpt-4-turbo 9.37
第二轮
smaug-70b 9.0 llama3-70b 8..8 gpt-4-turbo 9.0
平均
smaug-70b 9.2 llama3-70b 9.0 gpt-4-turbo 9.18我对 MT-bench 和人类评估的最大批评是,它们只解决人类提出的简单提示。在现实世界中,代理任务需要复杂的推理和规划。 Arena Hard 是衡量法学硕士解决复杂任务能力的新基准。在此基准测试中,Smaug 显着优于 Llama-3,得分为56.7 ,而 Llama-3 的得分为41.1。Smaug
是目前全球最好的开源模型,可与 GPT-4 Turbo 相媲美。 (替代中的 Hf 链接)
开源远未消亡