DeepSeek Lança o Novo Modelo Multimodal Visual Janus-Pro-7B, Superando o Stable Diffusion e o DALL-E 3
Lançamento Open-Source do Janus-Pro-7B
Em 28 de janeiro, a DeepSeek anunciou o lançamento open-source do novo modelo multimodal visual Janus-Pro-7B. Este modelo superou o Stable Diffusion e o DALL-E 3 da OpenAI nos testes de benchmark GenEval e DPG-Bench, mostrando desempenho excepcional.
Quadro Autoregressivo Inovador
Janus-Pro é um quadro autoregressivo inovador que realiza uma compreensão unificada e geração de informações multimodais. Ao contrário dos métodos anteriores, Janus-Pro resolve algumas das limitações dos modelos anteriores ao dividir o processo de codificação visual em vários caminhos independentes, mantendo uma única arquitetura transformadora unificada para o processamento. Esta abordagem de desacoplamento não apenas mitiga conflitos que podem surgir durante a compreensão e geração, mas também melhora a flexibilidade do quadro.
Desempenho Superando Modelos Tradicionais
Janus-Pro supera modelos tradicionais unificados e também se destaca ao ser comparado com modelos específicos de tarefas. Com sua simplicidade, flexibilidade e alta eficiência, Janus-Pro se tornou um forte concorrente para o modelo multimodal unificado de próxima geração.
Modelo Unificado de Linguagem Multimodal de Grande Escala
Janus-Pro é um modelo unificado de linguagem multimodal de grande escala (MLLM), que realiza um processamento mais eficiente ao desacoplar o processo de codificação visual da compreensão e geração multimodal. Janus-Pro é baseado no modelo DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base. Para tarefas de compreensão multimodal, Janus-Pro usa o SigLIP-L como codificador visual, aceitando entradas de imagens de 384x384 pixels. Para tarefas de geração de imagens, Janus-Pro usa um tokenizador de uma fonte específica com uma taxa de subamostragem de 16.
Versões Avançadas e Melhorias
Janus-Pro é uma versão avançada do trabalho anterior, Janus. Especificamente, Janus-Pro integra estratégias de treinamento otimizadas, dados de treinamento ampliados e uma expansão de escala de modelo maior. Graças a essas melhorias, Janus-Pro obteve progressos significativos na compreensão multimodal e na capacidade de seguir instruções de texto para imagem, além de melhorar a estabilidade da geração de imagens a partir de texto.
Arquitetura JanusFlow
De acordo com a descrição oficial, o JanusFlow introduz uma arquitetura minimalista que integra modelos de linguagem autoregressivos com fluxos de normalização (uma técnica avançada de modelo gerador). A pesquisa demonstrou que os fluxos de normalização podem ser treinados diretamente dentro da estrutura de um modelo de linguagem grande, sem a necessidade de ajustes arquitetônicos complexos. Vários experimentos demonstraram que o JanusFlow atinge um desempenho comparável ou até superior em seus respectivos domínios aos modelos especializados, superando significativamente as abordagens unificadas existentes nos testes de benchmark padrão. Este trabalho representa um avanço em direção a modelos de linguagem visual mais eficientes e gerais.
Conclusão
O modelo Janus-Pro-7B open-source da DeepSeek se destaca em tarefas de compreensão e geração multimodal, superando o Stable Diffusion e o DALL-E 3 graças ao seu quadro autoregressivo inovador e ao processo desacoplado de codificação visual. O lançamento do Janus-Pro não apenas demonstra a liderança técnica da DeepSeek, mas também oferece ferramentas poderosas aos desenvolvedores, promovendo o avanço dos modelos multimodais.
Endereço específico:GitHub 和 HuggingFace