DeepSeek, 오픈소스 비전 멀티모달 모델 Janus-Pro-7B 출시, Stable Diffusion 및 DALL-E 3 초과
1월 28일, DeepSeek는 새로운 비전 멀티모달 모델인 Janus-Pro-7B를 오픈소스로 출시했다고 발표했습니다. 이 모델은 GenEval 및 DPG-Bench 벤치마크 테스트에서 Stable Diffusion 및 OpenAI의 DALL-E 3을 능가하는 성능을 보여주었습니다.
혁신적인 자기회귀 프레임워크
Janus-Pro는 멀티모달 정보를 통합적으로 이해하고 생성하는 혁신적인 자기회귀 프레임워크입니다. 기존의 접근 방식과는 달리, Janus-Pro는 비주얼 인코딩 프로세스를 여러 독립적인 경로로 나누어 이전 모델들의 한계를 극복하면서도 여전히 단일한 통합된 변환기 아키텍처로 처리합니다. 이러한 분리 방식은 비주얼 인코딩 과정에서 발생할 수 있는 잠재적인 충돌을 효과적으로 완화하고 프레임워크의 유연성을 향상시킵니다.
전통적인 모델을 넘어선 성능
Janus-Pro의 성능은 기존의 통합 모델을 넘어섰으며, 특정 작업에 특화된 모델들과 비교해도 뛰어난 성과를 보였습니다. 단순하고 높은 유연성, 효율성을 갖춘 Janus-Pro는 차세대 멀티모달 모델로 강력한 경쟁자가 될 것입니다.
통합 멀티모달 대형 언어 모델
Janus-Pro는 비주얼 인코딩 프로세스를 멀티모달 이해 및 생성에서 분리하여 더 효율적인 처리를 달성하는 통합 멀티모달 대형 언어 모델(MLLM)입니다. Janus-Pro는 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 모델을 기반으로 구축되었으며, 멀티모달 이해 작업에서 384 x 384 픽셀 이미지를 입력받을 수 있는 SigLIP-L 비주얼 인코더를 사용합니다. 이미지 생성 작업에서는 특정 출처의 토크나이저를 사용하며 다운샘플링 비율은 16입니다.
고급 버전 및 개선 사항
Janus-Pro는 이전 Janus 모델의 고급 버전으로, 최적화된 훈련 전략, 확장된 훈련 데이터, 더 큰 모델 크기를 통합하여 훈련되었습니다. 이러한 개선을 통해 Janus-Pro는 멀티모달 이해 및 텍스트에서 이미지 생성 작업에서 중요한 진전을 이루었으며, 생성 안정성도 향상되었습니다.
JanusFlow 아키텍처
JanusFlow는 자기회귀 언어 모델과 수정 흐름(최신 생성 모델 방법)을 결합한 최소화된 아키텍처를 도입합니다. 연구에 따르면 수정 흐름은 대형 언어 모델 프레임워크 내에서 복잡한 아키텍처 조정 없이 직접 훈련할 수 있다는 것이 입증되었습니다. 많은 실험 결과, JanusFlow는 각 도메인에서 특화된 모델들과 동등하거나 더 나은 성능을 보였으며, 기존의 통합 모델을 표준 벤치마크에서 크게 능가했습니다. 이 작업은 더 효율적이고 범용적인 비전 언어 모델을 향한 진전을 의미합니다.
요약
DeepSeek의 오픈소스 Janus-Pro-7B 모델은 혁신적인 자기회귀 프레임워크와 분리된 비주얼 인코딩 프로세스를 통해 멀티모달 이해 및 생성 작업에서 뛰어난 성과를 보이며, Stable Diffusion과 DALL-E 3을 초과했습니다. Janus-Pro의 출시는 DeepSeek의 기술적 리더십을 입증할 뿐만 아니라 개발자들에게 강력한 도구를 제공하며 멀티모달 모델의 발전을 촉진하고 있습니다.
구체적인 주소:GitHub 和 HuggingFace