Hugging Face lance de nouveaux modèles multimodaux SmolVLM-256M et SmolVLM-500M

Actualité du 26 janvier : Hugging Face a lancé deux nouveaux modèles multimodaux, SmolVLM-256M et SmolVLM-500M, dont SmolVLM-256M revendique être le plus petit modèle de langage visuel (Video Language Model) au monde. Ce modèle est principalement distillé à partir du modèle de 80B paramètres formé par l’équipe de Hugging Face l’année dernière, et il est officiellement affirmé qu’il atteint un équilibre entre performance et exigences en ressources.

Prêt à l'emploi, déploiement facile
Les modèles SmolVLM-256M et SmolVLM-500M sont « prêts à l'emploi » et peuvent être directement déployés sur les plateformes transformer MLX et ONNX. D’un point de vue technique, les modèles SmolVLM-256M/500M utilisent SigLIP comme encodeur d’image et SmolLM2 comme encodeur de texte. SmolVLM-256M est actuellement le plus petit modèle multimodal, capable d’accepter des séquences arbitraires d’entrées d’images et de texte et de générer des sorties de texte. Ses fonctions incluent la description du contenu des images, la génération de sous-titres pour des vidéos courtes, le traitement des fichiers PDF, etc.

Léger et efficace, adapté aux plateformes mobiles
Hugging Face affirme que SmolVLM-256M, en raison de sa compacité, peut facilement fonctionner sur des plateformes mobiles avec moins de 1 Go de mémoire GPU pour effectuer une inférence sur une seule image. Cela rend le modèle idéal pour des applications à ressources limitées.

Modèle haute performance SmolVLM-500M
SmolVLM-500M est conçu pour des scénarios nécessitant des performances plus élevées et, selon Hugging Face, il est particulièrement adapté à l’utilisation dans des environnements opérationnels d’entreprise. SmolVLM-500M nécessite 1,23 Go de mémoire GPU pour effectuer une inférence sur une seule image. Bien qu’il ait une charge plus élevée que SmolVLM-256M, la sortie d’inférence est plus précise.

Licence open-source, facile pour les développeurs
Les deux modèles sont sous licence Apache 2.0 open-source et l’équipe de recherche a fourni des programmes exemples basés sur transformer et WebGUI. Tous les modèles et leurs démonstrations sont disponibles publiquement, ce qui permet aux développeurs de les télécharger et de les utiliser.

Résumé
Les nouveaux modèles multimodaux SmolVLM-256M et SmolVLM-500M de Hugging Face offrent des performances exceptionnelles dans des scénarios légers et haute performance respectivement. SmolVLM-256M, étant le plus petit modèle de langage visuel au monde, est adapté pour être exécuté sur des plateformes mobiles, tandis que SmolVLM-500M offre une plus grande précision d’inférence pour les applications d’entreprise. Les licences open-source et les programmes d’exemples pour les deux modèles offrent une grande commodité pour les développeurs et favorisent l’adoption généralisée des modèles multimodaux.