Hugging Faceは新しいマルチモーダルモデルSmolVLM-256MとSmolVLM-500Mを発表し

1月26日報道:Hugging Faceは、SmolVLM-256MとSmolVLM-500Mという2つの新しいマルチモーダルモデルを発表しました。そのうち、SmolVLM-256Mは世界最小の視覚言語モデル(Video Language Model)を名乗っています。このモデルは、Hugging Faceチームが昨年訓練した80Bパラメータのモデルから蒸留されたもので、公式には性能とリソース要求のバランスを実現しているとされています。

即時使用、簡単なデプロイ
SmolVLM-256MとSmolVLM-500Mの2つのモデルはどちらも「即使用可能」で、transformer MLXとONNXプラットフォームに直接デプロイできます。具体的には、SmolVLM-256M/500MモデルはどちらもSigLIPを画像エンコーダとして、SmolLM2をテキストエンコーダとして使用しています。SmolVLM-256Mは現在、最小のマルチモーダルモデルで、任意の画像とテキストのシーケンスを入力として受け入れ、テキスト出力を生成することができます。その機能には、画像の内容の説明、ショートビデオの字幕生成、PDF処理などが含まれます。

軽量で効率的、モバイルプラットフォームに適応
Hugging Faceは、SmolVLM-256Mが非常にコンパクトで、モバイルプラットフォームで簡単に動作し、1GB未満のGPUメモリで単一の画像に対して推論を実行できると述べています。これにより、このモデルはリソースが限られたアプリケーションに非常に適しています。

高性能モデルSmolVLM-500M
SmolVLM-500Mは、より高い性能が必要なシナリオ向けに設計されており、企業の運用環境へのデプロイに非常に適しているとHugging Faceは述べています。SmolVLM-500Mは、単一の画像に対して1.23GBのGPUメモリを必要とし、SmolVLM-256Mよりも負荷は大きいものの、推論結果はより精度が高くなります。

オープンソースライセンス、開発者にとって便利
両モデルはApache 2.0のオープンソースライセンスで提供されており、研究チームはtransformerおよびWebGUIをベースにしたサンプルプログラムを提供しています。すべてのモデルとそのデモは公開されており、開発者はそれらをダウンロードして使用することができます。

まとめ
Hugging Faceの新しいSmolVLM-256MとSmolVLM-500Mのマルチモーダルモデルは、それぞれ軽量化と高性能シナリオにおいて優れたパフォーマンスを発揮しています。SmolVLM-256Mは世界最小の視覚言語モデルとしてモバイルプラットフォームでの実行に適しており、SmolVLM-500Mは企業向けアプリケーションでより高い推論精度を提供します。両モデルのオープンソースライセンスとサンプルプログラムは開発者にとって非常に便利であり、マルチモーダルモデルの普及を促進します。