Hugging Face 發布全新多模態模型 SmolVLM-256M 和 SmolVLM-500M,性能與資源需求完美平衡

1 月 26 日消息,Hugging Face 發布了兩款全新多模態模型 SmolVLM-256M 和 SmolVLM-500M,其中 SmolVLM-256M 号称是世界上最小的視覺語言模型(Video Language Model)。該模型主要基於 Hugging Face 團隊去年訓練的 80B 參數模型蒸餾而成,官方稱其在性能和資源需求之間實現了平衡。

開箱即用,輕鬆部署
SmolVLM-256M 和 SmolVLM-500M 兩款模型均可 “開箱即用”,可以直接部署在 transformer MLX 和 ONNX 平台上。具體技術層面,SmolVLM-256M / 500M 兩款模型均採用 SigLIP 作為圖片編碼器,使用 SmolLM2 作為文本編碼器。SmolVLM-256M 是目前最小的多模態模型,可以接受任意序列的圖片和文本輸入並生成文字輸出,其功能包括描述圖片內容、為短視頻生成字幕、處理 PDF 等。

輕巧高效,移動平台友好
Hugging Face 稱 SmolVLM-256M 由於整體輕巧,可在移動平台輕鬆運行,僅需不到 1GB 的 GPU 顯存便可在單張圖片上完成推理。這使得該模型非常適合資源有限的應用場景。

高性能模型 SmolVLM-500M
而 SmolVLM-500M 針對需要更高性能的場景而設計,Hugging Face 稱該模型非常適合部署在企業運營環境中。SmolVLM-500M 在推理單張圖片時僅需 1.23GB 的 GPU 顯存,相對 SmolVLM-256M 雖然負載更大,但推理輸出的內容更精準。

開源授權,便於開發者使用
兩款模型均採用 Apache 2.0 開源授權,研究團隊提供了基於 transformer 和 WebGUI 的示例程序。所有模型及其演示已公開,便於開發者下載和使用。

總結
Hugging Face 發布的 SmolVLM-256M 和 SmolVLM-500M 兩款全新多模態模型,分別在輕量化和高性能場景中表現出色。SmolVLM-256M 作為世界最小的視覺語言模型,適合在移動平台上運行,而 SmolVLM-500M 則為企業級應用提供了更高的推理精度。兩款模型的開源授權和示例程序將為開發者帶來極大便利,推動多模態模型的廣泛應用。