Hugging Face 发布全新多模态模型 SmolVLM-256M 和 SmolVLM-500M,性能与资源需求完美平衡
1 月 26 日消息,Hugging Face 发布了两款全新多模态模型 SmolVLM-256M 和 SmolVLM-500M,其中 SmolVLM-256M 号称是世界上最小的视觉语言模型(Video Language Model)。该模型主要基于 Hugging Face 团队去年训练的 80B 参数模型蒸馏而成,官方称其在性能和资源需求之间实现了平衡。
开箱即用,轻松部署
SmolVLM-256M 和 SmolVLM-500M 两款模型均可 “开箱即用”,可以直接部署在 transformer MLX 和 ONNX 平台上。具体技术层面,SmolVLM-256M / 500M 两款模型均采用 SigLIP 作为图片编码器,使用 SmolLM2 作为文本编码器。SmolVLM-256M 是目前最小的多模态模型,可以接受任意序列的图片和文本输入并生成文字输出,其功能包括描述图片内容、为短视频生成字幕、处理 PDF 等。
轻巧高效,移动平台友好
Hugging Face 称 SmolVLM-256M 由于整体轻巧,可在移动平台轻松运行,仅需不到 1GB 的 GPU 显存便可在单张图片上完成推理。这使得该模型非常适合资源有限的应用场景。
高性能模型 SmolVLM-500M
而 SmolVLM-500M 针对需要更高性能的场景而设计,Hugging Face 称该模型非常适合部署在企业运营环境中。SmolVLM-500M 在推理单张图片时仅需 1.23GB 的 GPU 显存,相对 SmolVLM-256M 虽然负载更大,但推理输出的内容更精准。
开源授权,便于开发者使用
两款模型均采用 Apache 2.0 开源授权,研究团队提供了基于 transformer 和 WebGUI 的示例程序。所有模型及其演示已公开,便于开发者下载和使用。
总结
Hugging Face 发布的 SmolVLM-256M 和 SmolVLM-500M 两款全新多模态模型,分别在轻量化和高性能场景中表现出色。SmolVLM-256M 作为世界最小的视觉语言模型,适合在移动平台上运行,而 SmolVLM-500M 则为企业级应用提供了更高的推理精度。两款模型的开源授权和示例程序将为开发者带来极大便利,推动多模态模型的广泛应用。