DeepSeek开源全新视觉多模态模型Janus-Pro-7B,超越Stable Diffusion和DALL-E 3

Janus-Pro-7B开源发布
1月28日,DeepSeek宣布开源全新的视觉多模态模型Janus-Pro-7B。该模型在GenEval和DPG-Bench基准测试中击败了Stable Diffusion和OpenAI的DALL-E 3,表现出色。

创新自回归框架
Janus-Pro是一种创新的自回归框架,实现多模态信息的统一理解与生成。与以往的方法不同,Janus-Pro通过将视觉编码过程拆分为多个独立的路径,解决了以往框架中的一些局限性,同时仍采用单一的统一变换器架构进行处理。这一解耦方式不仅有效缓解了视觉编码器在理解和生成过程中可能出现的冲突,还提升了框架的灵活性。

性能超越传统模型
Janus-Pro的表现超越了传统的统一模型,并且在与任务特定模型的比较中也同样表现出色。凭借其简洁、高灵活性和高效性的特点,Janus-Pro成为下一代统一多模态模型的有力竞争者。

统一多模态大语言模型
Janus-Pro是一个统一的多模态大语言模型(MLLM),通过将视觉编码过程从多模态理解和生成中解耦来实现更高效的处理。Janus-Pro是基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base模型构建的。在多模态理解任务中,Janus-Pro采用SigLIP-L作为视觉编码器,支持384x384像素的图像输入。而在图像生成任务中,Janus-Pro使用一个来自特定来源的分词器,降采样率为16。

进阶版本与改进
Janus-Pro是先前工作Janus的进阶版本。具体来说,Janus-Pro整合了优化的训练策略、扩展的训练数据,以及更大模型规模的扩展。通过这些改进,Janus-Pro在多模态理解和文本到图像指令遵循能力方面取得了显著进展,同时还增强了文本到图像生成的稳定性。

JanusFlow架构
据官方介绍,JanusFlow引入了一种极简架构,它将自回归语言模型与校正流(一种最先进的生成模型方法)相集成。研究发现,校正流可以直接在大型语言模型框架内进行训练,无需复杂的架构调整。大量实验表明,JanusFlow在各自领域内取得了与专用模型相当甚至更好的性能,同时在标准基准测试中显著优于现有的统一方法。这项工作代表着朝着更高效、更通用的视觉语言模型迈进了一步。

总结
DeepSeek开源的Janus-Pro-7B模型凭借其创新的自回归框架和解耦视觉编码过程,在多模态理解和生成任务中表现出色,超越了Stable Diffusion和DALL-E 3。Janus-Pro的发布不仅展示了DeepSeek在技术上的领先地位,也为开发者提供了强大的工具,推动了多模态模型的发展。

具体地址:GitHub 和 HuggingFace