Hugging Face ra mắt các mô hình đa phương thức mới SmolVLM-256M và SmolVLM-500M, cân bằng hoàn hảo giữa hiệu suất và yêu cầu tài nguyên
Hugging Face ra mắt hai mô hình đa phương thức mới SmolVLM-256M và SmolVLM-500M, cân bằng hoàn hảo giữa hiệu suất và yêu cầu tài nguyên.
Ngày 26 tháng 1: Hugging Face đã ra mắt hai mô hình đa phương thức SmolVLM-256M và SmolVLM-500M, trong đó SmolVLM-256M được cho là mô hình ngôn ngữ hình ảnh nhỏ nhất thế giới (Video Language Model). Mô hình này chủ yếu được chưng cất từ mô hình 80B tham số mà nhóm Hugging Face đã huấn luyện vào năm ngoái, và được công nhận là đạt được sự cân bằng giữa hiệu suất và yêu cầu tài nguyên.
Sẵn sàng sử dụng, dễ dàng triển khai
Cả hai mô hình SmolVLM-256M và SmolVLM-500M đều “sẵn sàng sử dụng” và có thể triển khai trực tiếp trên các nền tảng transformer MLX và ONNX. Về mặt kỹ thuật, các mô hình SmolVLM-256M/500M sử dụng SigLIP làm bộ mã hóa hình ảnh và SmolLM2 làm bộ mã hóa văn bản. SmolVLM-256M là mô hình đa phương thức nhỏ nhất hiện nay, có thể tiếp nhận các chuỗi hình ảnh và văn bản tùy ý làm đầu vào và tạo ra đầu ra văn bản. Các tính năng của nó bao gồm mô tả nội dung hình ảnh, tạo phụ đề cho video ngắn, xử lý PDF và nhiều hơn nữa.
Nhẹ và hiệu quả, thân thiện với nền tảng di động
Hugging Face cho biết SmolVLM-256M, nhờ vào kích thước nhỏ gọn, có thể dễ dàng hoạt động trên các nền tảng di động, chỉ cần ít hơn 1GB bộ nhớ GPU để thực hiện suy luận trên một hình ảnh. Điều này khiến mô hình này rất phù hợp với các ứng dụng có tài nguyên hạn chế.
Mô hình hiệu suất cao SmolVLM-500M
SmolVLM-500M được thiết kế cho các tình huống yêu cầu hiệu suất cao hơn và theo Hugging Face, mô hình này rất phù hợp để triển khai trong môi trường hoạt động của các doanh nghiệp. SmolVLM-500M yêu cầu 1,23 GB bộ nhớ GPU để thực hiện suy luận trên một hình ảnh, và mặc dù có tải cao hơn so với SmolVLM-256M, nhưng kết quả suy luận chính xác hơn.
Giấy phép mã nguồn mở, thuận tiện cho các nhà phát triển
Cả hai mô hình đều có giấy phép mã nguồn mở Apache 2.0, và nhóm nghiên cứu cung cấp các chương trình ví dụ dựa trên transformer và WebGUI. Tất cả các mô hình và bản trình diễn đều được công khai, giúp các nhà phát triển dễ dàng tải xuống và sử dụng.
Tóm tắt
Hai mô hình đa phương thức SmolVLM-256M và SmolVLM-500M mà Hugging Face phát hành đều thể hiện xuất sắc trong các tình huống nhẹ và hiệu suất cao. SmolVLM-256M, là mô hình ngôn ngữ hình ảnh nhỏ nhất thế giới, phù hợp với việc chạy trên nền tảng di động, trong khi SmolVLM-500M cung cấp độ chính xác suy luận cao hơn cho các ứng dụng doanh nghiệp. Giấy phép mã nguồn mở và các chương trình ví dụ cho cả hai mô hình mang lại sự thuận tiện lớn cho các nhà phát triển, thúc đẩy việc áp dụng rộng rãi các mô hình đa phương thức.