DeepSeek phát hành mô hình đa mô thức Janus-Pro-7B mã nguồn mở, vượt qua
Stable Diffusion và DALL-E 3
Vào ngày 28 tháng 1, DeepSeek thông báo phát hành mã nguồn mở mô hình đa mô thức Janus-Pro-7B. Mô hình này đã vượt qua Stable Diffusion và DALL-E 3 của OpenAI trong các bài kiểm tra chuẩn GenEval và DPG-Bench.
Khung tự hồi quy sáng tạo
Janus-Pro là một khung tự hồi quy sáng tạo cho phép hiểu và sinh thông tin đa mô thức một cách thống nhất. Khác với các phương pháp truyền thống, Janus-Pro chia quá trình mã hóa hình ảnh thành nhiều đường dẫn độc lập, giúp khắc phục những hạn chế của các mô hình trước đây, trong khi vẫn sử dụng một kiến trúc chuyển đổi thống nhất. Phương pháp phân tách này không chỉ giảm thiểu các xung đột có thể xảy ra trong quá trình mã hóa hình ảnh mà còn nâng cao tính linh hoạt của mô hình.
Hiệu suất vượt trội so với các mô hình truyền thống
Hiệu suất của Janus-Pro vượt trội so với các mô hình truyền thống và cũng cho thấy kết quả xuất sắc khi so sánh với các mô hình chuyên biệt cho nhiệm vụ. Nhờ vào tính đơn giản, linh hoạt và hiệu quả, Janus-Pro là một đối thủ mạnh mẽ cho mô hình đa mô thức thống nhất thế hệ tiếp theo.
Mô hình Ngôn ngữ Đa Mô Thức Lớn Thống Nhất
Janus-Pro là một mô hình ngôn ngữ đa mô thức lớn thống nhất (MLLM), đạt được hiệu quả xử lý cao hơn bằng cách tách quá trình mã hóa hình ảnh ra khỏi sự hiểu và sinh đa mô thức. Janus-Pro được xây dựng trên nền tảng của DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base. Trong các nhiệm vụ hiểu đa mô thức, Janus-Pro sử dụng bộ mã hóa hình ảnh SigLIP-L, hỗ trợ đầu vào hình ảnh có độ phân giải 384 x 384 pixel. Đối với các nhiệm vụ sinh hình ảnh, Janus-Pro sử dụng một bộ phân tích từ ngữ với tỷ lệ giảm mẫu 16.
Phiên bản nâng cao và cải tiến
Janus-Pro là phiên bản nâng cao của mô hình Janus trước đây. Nó tích hợp các chiến lược huấn luyện tối ưu, dữ liệu huấn luyện mở rộng và quy mô mô hình lớn hơn. Với những cải tiến này, Janus-Pro đã đạt được những tiến bộ đáng kể trong hiểu và sinh đa mô thức cũng như khả năng thực hiện lệnh văn bản thành hình ảnh, đồng thời cải thiện sự ổn định trong việc sinh hình ảnh.
Kiến trúc JanusFlow
Kiến trúc JanusFlow giới thiệu một phương pháp tối giản kết hợp mô hình ngôn ngữ tự hồi quy với dòng chỉnh sửa (một phương pháp mô hình sinh hiện đại). Các nghiên cứu đã chỉ ra rằng dòng chỉnh sửa có thể được huấn luyện trực tiếp trong khuôn khổ của một mô hình ngôn ngữ lớn mà không cần điều chỉnh kiến trúc phức tạp. Các thí nghiệm cho thấy JanusFlow đạt hiệu suất tương đương hoặc thậm chí tốt hơn so với các mô hình chuyên biệt trong các lĩnh vực tương ứng và vượt trội đáng kể so với các phương pháp thống nhất hiện có trong các bài kiểm tra chuẩn. Công trình này đại diện cho một bước tiến hướng tới các mô hình thị giác ngôn ngữ hiệu quả và đa năng hơn.
Tóm tắt
Mô hình Janus-Pro-7B mã nguồn mở của DeepSeek, với khung tự hồi quy sáng tạo và quá trình mã hóa hình ảnh tách biệt, thể hiện hiệu suất xuất sắc trong các nhiệm vụ hiểu và sinh đa mô thức, vượt qua Stable Diffusion và DALL-E 3. Sự ra mắt của Janus-Pro không chỉ chứng tỏ vị thế dẫn đầu về công nghệ của DeepSeek mà còn cung cấp công cụ mạnh mẽ cho các nhà phát triển, thúc đẩy sự phát triển của các mô hình đa mô thức.
Địa chỉ cụ thể:GitHub 和 HuggingFace