Read Buf

Read Buf

SmolLM 一个 HuggingFace 发布的小型语言模型

最近 Huggingface 发布了一个 SmolLM 小型语言模型,这是一系列先进的小型模型,有 135M、360M 和 1.7B 参数版本。

这些模型基于一个精心整理的高质量语料库训练而来,他们同时也发布了 SmolLM-Corpus 语料库。SmolLM 语料库包括:

  • Cosmopedia v2:由 Mixtral 生成的合成教科书和故事(28B 个 Token)
  • Python-Edu:来自 The Stack 的教育性 Python 样本(4B 个 Token)
  • FineWeb-Edu(去重):来自 FineWeb 的教育性网页样本(220B 个 Token)

SmolLM 非常适合在小型设备上部署,Huggingface 发布并上传了 ONNX 权重,这意味着可以使用🤗 Transformers.js 和 WebGPU 来加速在浏览器中本地运行!

对能够在本地设备上运行的小型语言模型的兴趣日益增加。这种趋势包括通过蒸馏或量化技术压缩大模型,以及在大数据集上从零开始训练小模型。这些方法不仅能实现新的应用,还显著降低了推理成本并提高了用户隐私。

Microsoft 的 Phi 系列、Alibaba 的 Qwen2(小于 2B 参数)和 Meta 的 MobileLLM 证明,只要设计和训练得当,小型模型也可以有不错的效果。不过,这些模型的数据整理和训练细节大多未公开。

根据他们的评估结果显示,SmolLM 模型在其规模类别中,在多种基准测试中表现优于其他模型,测试内容包括常识推理和世界知识。