DeepSeek開源全新視覺多模態模型Janus-Pro-7B,超越Stable Diffusion和DALL-E 3
Janus-Pro-7B開源發布
1月28日,DeepSeek宣布開源全新的視覺多模態模型Janus-Pro-7B。該模型在GenEval和DPG-Bench基準測試中擊敗了Stable Diffusion和OpenAI的DALL-E 3,表現出色。
創新自回歸框架
Janus-Pro是一種創新的自回歸框架,實現多模態信息的統一理解與生成。與以往的方法不同,Janus-Pro通過將視覺編碼過程拆分為多個獨立的路徑,解決了以往框架中的一些局限性,同時仍採用單一的統一變換器架構進行處理。這一解耦方式不僅有效緩解了視覺編碼器在理解和生成過程中可能出現的衝突,還提升了框架的靈活性。
性能超越傳統模型
Janus-Pro的表現超越了傳統的統一模型,並且在與任務特定模型的比較中也同樣表現出色。憑藉其簡潔、高靈活性和高效性的特點,Janus-Pro成為下一代統一多模態模型的有力競爭者。
統一多模態大語言模型
Janus-Pro是一個統一的多模態大語言模型(MLLM),通過將視覺編碼過程從多模態理解和生成中解耦來實現更高效的處理。Janus-Pro是基於DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base模型構建的。在多模態理解任務中,Janus-Pro採用SigLIP-L作為視覺編碼器,支持384x384像素的圖像輸入。而在圖像生成任務中,Janus-Pro使用一個來自特定來源的分詞器,降採樣率為16。
進階版本與改進
Janus-Pro是先前工作Janus的進階版本。具體來說,Janus-Pro整合了優化的訓練策略、擴展的訓練數據,以及更大模型規模的擴展。通過這些改進,Janus-Pro在多模態理解和文本到圖像指令遵循能力方面取得了顯著進展,同時還增強了文本到圖像生成的穩定性。
JanusFlow架構
據官方介紹,JanusFlow引入了一種極簡架構,它將自回歸語言模型與校正流(一種最先進的生成模型方法)相集成。研究發現,校正流可以直接在大型語言模型框架內進行訓練,無需複雜的架構調整。大量實驗表明,JanusFlow在各自領域內取得了與專用模型相當甚至更好的性能,同時在標準基準測試中顯著優於現有的統一方法。這項工作代表著朝著更高效、更通用的視覺語言模型邁進了一步。
總結
DeepSeek開源的Janus-Pro-7B模型憑藉其創新的自回歸框架和解耦視覺編碼過程,在多模態理解和生成任務中表現出色,超越了Stable Diffusion和DALL-E 3。Janus-Pro的發布不僅展示了DeepSeek在技術上的領先地位,也為開發者提供了強大的工具,推動了多模態模型的發展。
具體地址:GitHub 和 HuggingFace