Hugging Face lança novos modelos multimodais SmolVLM-256M e SmolVLM-500M, equilibrando perfeitamente desempenho e requisitos de recursos

Notícia de 26 de janeiro: Hugging Face lançou dois novos modelos multimodais, SmolVLM-256M e SmolVLM-500M, sendo que o SmolVLM-256M é considerado o menor modelo de linguagem visual do mundo (Video Language Model). Este modelo foi principalmente destilado do modelo de 80B parâmetros treinado pela equipe da Hugging Face no ano passado, e é oficialmente afirmado que ele alcança um equilíbrio entre desempenho e requisitos de recursos.

Pronto para uso, fácil de implementar
Os modelos SmolVLM-256M e SmolVLM-500M são "prontos para uso" e podem ser implantados diretamente nas plataformas transformer MLX e ONNX. Tecnicamente, os modelos SmolVLM-256M/500M utilizam o SigLIP como codificador de imagens e o SmolLM2 como codificador de texto. O SmolVLM-256M é atualmente o modelo multimodal mais pequeno, capaz de aceitar sequências arbitrárias de entradas de imagens e texto e gerar saídas de texto. Suas funcionalidades incluem descrever o conteúdo das imagens, gerar legendas para vídeos curtos, processar PDFs, entre outros.

Leve e eficiente, amigável com plataformas móveis
Hugging Face afirma que o SmolVLM-256M, devido à sua compactação, pode ser executado facilmente em plataformas móveis, precisando de menos de 1 GB de memória GPU para realizar inferências em uma única imagem. Isso torna o modelo ideal para aplicações com recursos limitados.

Modelo de alto desempenho SmolVLM-500M
O SmolVLM-500M é projetado para cenários que exigem desempenho mais alto e, segundo a Hugging Face, é altamente adequado para implantação em ambientes operacionais empresariais. O SmolVLM-500M precisa de 1,23 GB de memória GPU para realizar inferências em uma única imagem, e embora tenha uma carga maior do que o SmolVLM-256M, gera saídas de inferência mais precisas.

Licença open source, fácil para desenvolvedores
Ambos os modelos estão licenciados sob a licença open-source Apache 2.0, e a equipe de pesquisa forneceu exemplos de programas baseados em transformer e WebGUI. Todos os modelos e demonstrações estão disponíveis publicamente, facilitando o download e uso pelos desenvolvedores.

Resumo
Os novos modelos multimodais SmolVLM-256M e SmolVLM-500M lançados pela Hugging Face se destacam em cenários de leveza e alto desempenho, respectivamente. O SmolVLM-256M, como o menor modelo de linguagem visual do mundo, é adequado para execução em plataformas móveis, enquanto o SmolVLM-500M oferece maior precisão de inferência para aplicações empresariais. A licença open-source e os exemplos fornecidos para ambos os modelos oferecem grande conveniência para os desenvolvedores, impulsionando a adoção generalizada de modelos multimodais.