Hugging Face veröffentlicht neue multimodale Modelle SmolVLM-256M und SmolVLM-500M

Nachricht vom 26. Januar: Hugging Face hat zwei neue multimodale Modelle veröffentlicht, SmolVLM-256M und SmolVLM-500M, wobei SmolVLM-256M als das weltweit kleinste visuelle Sprachmodell (Video Language Model) gilt. Dieses Modell wurde hauptsächlich aus dem 80B-Parameter-Modell destilliert, das das Hugging Face-Team im letzten Jahr trainiert hat, und es wird offiziell behauptet, dass es eine Balance zwischen Leistung und Ressourcenanforderungen erreicht.

Bereit zur Verwendung, einfache Bereitstellung
Die Modelle SmolVLM-256M und SmolVLM-500M sind "bereit zur Verwendung" und können direkt auf den Plattformen Transformer MLX und ONNX bereitgestellt werden. Konkret verwenden beide Modelle SmolVLM-256M/500M SigLIP als Bildcodierer und SmolLM2 als Textcodierer. SmolVLM-256M ist derzeit das kleinste multimodale Modell, das beliebige Sequenzen von Bild- und Texteingaben akzeptieren und Textausgaben generieren kann. Zu seinen Funktionen gehören die Beschreibung von Bildinhalten, das Erstellen von Untertiteln für Kurzvideos, das Verarbeiten von PDFs und mehr.

Leichtgewichtig und effizient, mobilplattformfreundlich
Hugging Face behauptet, dass SmolVLM-256M aufgrund seiner Kompaktheit problemlos auf mobilen Plattformen ausgeführt werden kann, wobei weniger als 1 GB GPU-Speicher benötigt wird, um auf einem einzigen Bild Inferenz durchzuführen. Dadurch ist das Modell ideal für ressourcenbeschränkte Anwendungen.

Hochleistungsmodell SmolVLM-500M
SmolVLM-500M ist für Szenarien mit höherem Leistungsbedarf konzipiert und eignet sich laut Hugging Face besonders gut für den Einsatz in Unternehmensumgebungen. SmolVLM-500M benötigt 1,23 GB GPU-Speicher, um auf einem einzelnen Bild Inferenz durchzuführen. Obwohl es eine höhere Last als SmolVLM-256M hat, liefert es genauere Inferenzausgaben.

Open-Source-Lizenz, einfach für Entwickler zu verwenden
Beide Modelle sind unter der Apache 2.0 Open-Source-Lizenz lizenziert, und das Forschungsteam stellt Beispielprogramme basierend auf Transformer und WebGUI zur Verfügung. Alle Modelle und ihre Demos sind öffentlich zugänglich, sodass Entwickler sie herunterladen und verwenden können.

Zusammenfassung
Die neuen multimodalen Modelle SmolVLM-256M und SmolVLM-500M von Hugging Face bieten hervorragende Leistung in den Szenarien der Leichtgewicht- und Hochleistungsanwendungen. SmolVLM-256M, als das kleinste visuelle Sprachmodell der Welt, eignet sich für den Einsatz auf mobilen Plattformen, während SmolVLM-500M eine höhere Inferenzgenauigkeit für Unternehmensanwendungen bietet. Die Open-Source-Lizenzen und Beispielprogramme für beide Modelle bieten Entwicklern großen Komfort und fördern die weitreichende Anwendung von multimodalen Modellen