date
category
tag
summary
llama 3.1 在大多数基准测试中优于 gpt-4o ,以下五个测试表现:
- 9.11和9.9测试:gpt-4o 在这一测试中优于 llama 3.1。
- Linkedin 标题生成:llama 3.1 提供五个标题,而 gpt-4o 只提供一个。
- 商业计划:llama 3.1 提供了详细的计划,而 gpt-4o 则比较泛泛。
- 冷邮件:gpt-4o 的邮件较为直接,而 llama 3.1 的邮件较长。
- Linkedin 邀请函:两者内容相似,但更喜欢 llama 3.1 的版本。
llama 3.1 是开源胜利,有时优于 gpt-4o。
下面是原作者@Ruben Hassid 对 llama 和 gpt-4o 进行的 5 项并行比较测试:
左边:llama-3.1 右边:gpt-4o 测试 #1 → 9.11 和 9.9,哪个更大?很少有语言模型能正确回答这个问题。gpt-4o 在这里可以,llama 3.1 不能。推理很有趣,但错误。
测试 #2 → Linkedin 标题 这是一个要求他们都提出多个标题的任务。→ gpt-4o 只建议了一个。→ llama-3 给我建议了五个标题。 gpt-4o 的标题太长了。 llama 3.1 审查并提出了一个非常好的标题。
测试 #3 → 单人商业计划 背景:一个西班牙语学习课程。我对llama印象深刻。 > 问题发现 > 内容创作计划 > 受众构建与营销 它甚至建议了reddit和Facebook小组。gpt-4o 太泛泛了。llama胜出。
测试 #4 → EasyGen 的冷邮件,我更喜欢 gpt-4o 的语气。它虽然不完美,但比较直接。llama 3.1 太长了,我不得不要求缩短。现在,哪个在写 LinkedIn 邀请函方面更好:
测试 #5 → LinkedIn 邀请函 我很惊讶他们在这里写得几乎一样。他们给我建议的大致相同的开头、结尾和邀请函。但我更喜欢 llama 的版本。总结一下我的结论:
我对 llama-3.1 印象深刻。1. 这是一个巨大的开源胜利。2. 它和 gpt-4o 一样好。3. 有时甚至更好。开源 AI 将主导未来。像 ChatGPT 这样的闭源 AI 如果没有更好的产品可能会逐渐消失。