date
category
tag
summary
- Mistral发布了Large 123B模型 - 多语言支持(11种语言),128K上下文,训练于80多种编程语言
- 分数接近Meta Llama 405B模型
- MMLU(多任务学习)得分:84.0% vs 79.3% (70B) vs 85.2% (405B)
- HumanEval(编程)得分:92% vs 80.5% (70B Ins) vs 89% (405B Ins)
- GSM8K(数学问题解决)得分:93% vs 95.5% (70B Ins) vs 96.8% (405B Ins)
- 支持的语言包括:英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语
- 训练于80多种编程语言,特别是swift和fortran
- 支持原生函数调用和结构化输出
- 在Mistral研究许可证下发布(非商业用途)
- 集成于Transformers框架
- GPU需求:fp16/bf16 - 约250GB VRAM,fp8/int8 - 约125GB VRAM,int4 - 约60GB VRAM
- Mistral模型显得非常强大,尤其是编程能力
模型体验👇
集成Transformers框架👇
Integrated w/ Transformers!