Hugging Face выпускает новые многомодальные модели SmolVLM-256M и SmolVLM-500M
26 января: Hugging Face представила две новые многомодальные модели SmolVLM-256M и SmolVLM-500M, при этом SmolVLM-256M позиционируется как самая маленькая визуальная языковая модель в мире (Video Language Model). Эта модель была в основном дистиллирована из модели с 80B параметрами, обученной командой Hugging Face в прошлом году, и официально утверждается, что она достигла баланса между производительностью и требованиями к ресурсам.
Готовы к использованию, простота развертывания
Модели SmolVLM-256M и SmolVLM-500M обе "готовы к использованию" и могут быть развернуты непосредственно на платформах transformer MLX и ONNX. С технической точки зрения модели SmolVLM-256M/500M используют SigLIP в качестве кодировщика изображений и SmolLM2 в качестве текстового кодировщика. SmolVLM-256M — это самая маленькая многомодальная модель, которая может принимать произвольные последовательности изображений и текстовых данных в качестве ввода и генерировать текстовый вывод. Ее возможности включают описание содержания изображений, генерацию субтитров для коротких видео, обработку PDF и многое другое.
Легкий и эффективный, совместим с мобильными платформами
Hugging Face утверждает, что SmolVLM-256M, благодаря своей компактности, может легко работать на мобильных платформах, требуя менее 1 ГБ видеопамяти GPU для выполнения вывода на одном изображении. Это делает модель идеальной для приложений с ограниченными ресурсами.
Высокопроизводительная модель SmolVLM-500M
SmolVLM-500M предназначена для сценариев с более высокими требованиями к производительности, и, по мнению Hugging Face, она идеально подходит для развертывания в операционных средах предприятий. Для выполнения вывода на одном изображении SmolVLM-500M требуется 1,23 ГБ видеопамяти GPU. Несмотря на большую нагрузку по сравнению с SmolVLM-256M, результаты вывода более точны.
Открытая лицензия, удобно для разработчиков
Обе модели доступны под лицензией с открытым исходным кодом Apache 2.0, и исследовательская команда предоставила примерные программы, основанные на transformer и WebGUI. Все модели и демонстрации доступны публично, что облегчает разработчикам их загрузку и использование.
Резюме
Новые многомодальные модели SmolVLM-256M и SmolVLM-500M от Hugging Face демонстрируют отличные результаты в легковесных и высокопроизводительных сценариях. SmolVLM-256M, как самая маленькая визуальная языковая модель в мире, подходит для работы на мобильных платформах, в то время как SmolVLM-500M предлагает более высокую точность вывода для корпоративных приложений. Открытая лицензия и примерные программы для обеих моделей предоставляют разработчикам огромные возможности и способствуют широкому распространению многомодальных моделей.