Mistral 发布了他们的第一个 Mamba 模型 Codestral Mamba
最近 Mistral 发布了他们的第一个 Mamba 模型 Codestral-Mamba。这是一个专门用于代码生成的 Mamba2 语言模型,采用 Apache 2.0 许可证发布。
该模型可免费使用、修改和分发,Mistral 希望它能为架构研究带来新的视角。Codestral Mamba 的设计得到了 Albert Gu 和 Tri Dao 的帮助。
Codestral Mamba 7B 是一款基于 Mamba2 架构的代码大语言模型 (Code LLM),并且在 Python 编码的 HumanEval 测试中取得了 75% 的成绩。此外,他们还发布了一款基于 Mistral 7B 的数学微调模型,在 MATH 测试中取得了 56.6% 的成绩,在 MMLU 测试中取得了 63.47% 的成绩。
- mamba-codestral-7B 模型: https://huggingface.co/mistralai/mamba-codestral-7B-v0.1
- mathstral-7B 模型: https://huggingface.co/mistralai/mathstral-7B-v0.1
与 Transformer 模型不同,Mamba 模型具有线性时间推断的优势,并且理论上可以处理无限长度的序列。无论输入长度如何,用户都能快速获得响应。这种高效性在代码生产力应用中尤为重要——这也是我们训练该模型时注重高级代码和推理能力的原因,使其表现能够媲美最先进的基于 Transformer 的模型。
Mistral 已经测试了 Codestral Mamba 的情境检索能力,最高可达 256k Tokens。并期望它成为一个出色的本地代码助手!
您可以使用 mistral-inference SDK 部署 Codestral Mamba,SDK 基于 Mamba 的 GitHub 仓库中的参考实现。该模型也可以通过 TensorRT-LLM 部署。对于本地推断,请关注 llama.cpp 的支持。您可以从 HuggingFace 下载原始权重。
为了便于测试,他们在 la Plateforme(codestral-mamba-2407)上提供了 Codestral Mamba 以及它的 “姐姐” Codestral 22B。虽然 Codestral Mamba 采用 Apache 2.0 许可证发布,但 Codestral 22B 使用商业许可证进行自我部署或社区许可证进行测试。
重要提示:这是一个指令模型,拥有 7,285,403,648 个参数。