Hugging Face lanza nuevos modelos multimodales SmolVLM-256M y SmolVLM-500M

Noticia del 26 de enero: Hugging Face ha lanzado dos nuevos modelos multimodales, SmolVLM-256M y SmolVLM-500M, siendo SmolVLM-256M considerado el modelo de lenguaje visual más pequeño del mundo (Video Language Model). Este modelo está principalmente destilado del modelo de 80B parámetros entrenado por el equipo de Hugging Face el año pasado, y oficialmente se dice que logra un equilibrio entre rendimiento y requisitos de recursos.

Listo para usar, fácil de implementar
Los modelos SmolVLM-256M y SmolVLM-500M son "listos para usar" y pueden implementarse directamente en las plataformas transformer MLX y ONNX. En cuanto a la tecnología, ambos modelos SmolVLM-256M/500M utilizan SigLIP como codificador de imágenes y SmolLM2 como codificador de texto. SmolVLM-256M es actualmente el modelo multimodal más pequeño, capaz de aceptar secuencias arbitrarias de entradas de imágenes y texto y generar salidas de texto. Sus funciones incluyen describir contenido de imágenes, generar subtítulos para videos cortos, procesar PDFs, entre otras.

Ligero y eficiente, amigable con plataformas móviles
Hugging Face afirma que SmolVLM-256M, debido a su tamaño compacto, puede ejecutarse fácilmente en plataformas móviles con menos de 1 GB de memoria GPU para realizar inferencia en una sola imagen. Esto hace que el modelo sea ideal para aplicaciones con recursos limitados.

Modelo de alto rendimiento SmolVLM-500M
SmolVLM-500M está diseñado para escenarios que requieren mayor rendimiento y, según Hugging Face, es altamente adecuado para implementarse en entornos operativos empresariales. SmolVLM-500M requiere 1.23 GB de memoria GPU para realizar inferencias sobre una sola imagen. Aunque tiene una mayor carga que SmolVLM-256M, la salida de inferencia es más precisa.

Licencia de código abierto, fácil de usar para desarrolladores
Ambos modelos están bajo licencia de código abierto Apache 2.0, y el equipo de investigación ha proporcionado programas de ejemplo basados en transformer y WebGUI. Todos los modelos y sus demostraciones están disponibles públicamente para que los desarrolladores los descarguen y utilicen.

Resumen
Los nuevos modelos multimodales SmolVLM-256M y SmolVLM-500M de Hugging Face destacan en escenarios ligeros y de alto rendimiento respectivamente. SmolVLM-256M, como el modelo de lenguaje visual más pequeño del mundo, es adecuado para ejecutarse en plataformas móviles, mientras que SmolVLM-500M ofrece mayor precisión de inferencia para aplicaciones empresariales. Las licencias de código abierto y los programas de ejemplo para ambos modelos brindarán una gran comodidad a los desarrolladores, promoviendo la adopción generalizada de modelos multimodales