Mistral Large 123B很接近Meta Llama 405B的能力,甚至编程更强
🗒️Mistral Large 123B很接近Meta Llama 405B的能力,甚至编程更强
2024-7-25
| 2024-8-5
0  |  阅读时长 0 分钟
date
category
tag
summary
  • Mistral发布了Large 123B模型 - 多语言支持(11种语言),128K上下文,训练于80多种编程语言
  • 分数接近Meta Llama 405B模型
  • MMLU(多任务学习)得分:84.0% vs 79.3% (70B) vs 85.2% (405B)
  • HumanEval(编程)得分:92% vs 80.5% (70B Ins) vs 89% (405B Ins)
  • GSM8K(数学问题解决)得分:93% vs 95.5% (70B Ins) vs 96.8% (405B Ins)
  • 支持的语言包括:英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语
  • 训练于80多种编程语言,特别是swift和fortran
  • 支持原生函数调用和结构化输出
  • 在Mistral研究许可证下发布(非商业用途)
  • 集成于Transformers框架
  • GPU需求:fp16/bf16 - 约250GB VRAM,fp8/int8 - 约125GB VRAM,int4 - 约60GB VRAM
  • Mistral模型显得非常强大,尤其是编程能力
notion image
模型体验👇
集成Transformers框架👇
Integrated w/ Transformers!
notion image
  • LLM
  • Mistral
  • Meta Llama
  • Llama 3.1 vs GPT-4oAI Agent 是什么?
    Loading...
    目录