Hugging Face는 성능과 자원 요구 사항을 완벽하게 균형 잡은 새로운 멀티모달 모델 SmolVLM-256M 및 SmolVLM-500M을 발표했습니다
1월 26일 뉴스: Hugging Face는 새로운 멀티모달 모델 SmolVLM-256M과 SmolVLM-500M을 발표했으며, SmolVLM-256M은 세계에서 가장 작은 시각 언어 모델(비디오 언어 모델)로 불립니다. 이 모델은 Hugging Face 팀이 작년에 훈련한 80B 매개변수 모델을 증류하여 만든 것으로, 공식적으로 성능과 자원 요구 사항 사이에서 균형을 이룬다고 합니다.
사용 준비 완료, 간편한 배포
SmolVLM-256M과 SmolVLM-500M 모델은 모두 "사용 준비 완료" 상태로 transformer MLX와 ONNX 플랫폼에 직접 배포할 수 있습니다. 기술적으로 SmolVLM-256M/500M 모델은 SigLIP을 이미지 인코더로, SmolLM2를 텍스트 인코더로 사용합니다. SmolVLM-256M은 현재 가장 작은 멀티모달 모델로, 이미지와 텍스트의 임의의 시퀀스를 입력으로 받아 텍스트 출력을 생성할 수 있습니다. 이 기능은 이미지 내용 설명, 짧은 동영상 자막 생성, PDF 처리 등을 포함합니다.
경량화 및 효율성, 모바일 플랫폼 친화적
Hugging Face는 SmolVLM-256M이 전체적으로 컴팩트하여 모바일 플랫폼에서 쉽게 실행될 수 있으며, 1GB 미만의 GPU 메모리로 한 장의 이미지에서 추론을 실행할 수 있다고 주장합니다. 이는 자원이 제한된 애플리케이션에 매우 적합한 모델입니다.
고성능 모델 SmolVLM-500M
SmolVLM-500M은 더 높은 성능이 필요한 시나리오를 위해 설계되었으며, Hugging Face는 이 모델이 기업 운영 환경에 적합하다고 설명합니다. SmolVLM-500M은 한 장의 이미지에서 추론을 실행할 때 1.23GB의 GPU 메모리를 필요로 하며, SmolVLM-256M보다 부하가 크지만 추론 출력이 더 정확합니다.
오픈 소스 라이선스, 개발자가 사용하기 편리
두 모델은 Apache 2.0 오픈 소스 라이선스로 제공되며, 연구팀은 transformer와 WebGUI를 기반으로 한 예제 프로그램을 제공합니다. 모든 모델과 데모는 공개되어 개발자가 다운로드하여 사용할 수 있습니다.
요약
Hugging Face에서 출시한 새로운 SmolVLM-256M과 SmolVLM-500M 멀티모달 모델은 각각 경량화 및 고성능 시나리오에서 뛰어난 성능을 보입니다. SmolVLM-256M은 세계에서 가장 작은 시각 언어 모델로 모바일 플랫폼에서 실행하기 적합하며, SmolVLM-500M은 기업용 애플리케이션에 더 높은 추론 정확도를 제공합니다. 두 모델의 오픈 소스 라이선스와 예제 프로그램은 개발자에게 큰 편리함을 제공하며, 멀티모달 모델의 광범위한 적용을 촉진합니다.