Smaug 世界上最好的开源模型，可与 GPT-4 Turbo 相媲美-ChatGPT国内镜像中文交流-IntelliRealm

Llama-3 70b 是迄今为止最好的操作系统模型。今天，我们很高兴推出一个明显更好的模型，Smaug-Lllama-3-Instruct。首先，通过 Smaug，我们看到MT 工作台有了显着改进。该分数与人类评估相关。第一轮

smaug-70b 9.4 llama3-70b 9.2 gpt-4-turbo 9.37

第二轮

smaug-70b 9.0 llama3-70b 8..8 gpt-4-turbo 9.0

平均

smaug-70b 9.2 llama3-70b 9.0 gpt-4-turbo 9.18我对 MT-bench 和人类评估的最大批评是，它们只解决人类提出的简单提示。在现实世界中，代理任务需要复杂的推理和规划。 Arena Hard 是衡量法学硕士解决复杂任务能力的新基准。在此基准测试中，Smaug 显着优于 Llama-3，得分为56.7 ，而 Llama-3 的得分为41.1。Smaug

是目前全球最好的开源模型，可与 GPT-4 Turbo 相媲美。（替代中的 Hf 链接）

开源远未消亡