DeepSeekが新しい視覚的マルチモーダルモデルJanus-Pro-7Bをオープンソースで公開、Stable DiffusionとDALL-E 3を超越

Janus-Pro-7Bオープンソースリリース
1月28日、DeepSeekは新しい視覚的マルチモーダルモデルJanus-Pro-7Bのオープンソース公開を発表しました。このモデルは、GenEvalおよびDPG-BenchベンチマークテストでStable DiffusionやOpenAIのDALL-E 3を超え、優れたパフォーマンスを示しました。

革新的な自己回帰型フレームワーク
Janus-Proは、マルチモーダル情報の統一的な理解と生成を実現する革新的な自己回帰型フレームワークです。従来の方法とは異なり、Janus-Proは視覚的エンコーディングプロセスを複数の独立したパスに分割することで、以前のフレームワークの制限を解決し、依然として単一の統一されたトランスフォーマーアーキテクチャで処理を行います。このデカップリング手法は、理解および生成の過程で発生する可能性のある衝突を軽減するだけでなく、フレームワークの柔軟性も向上させます。

従来のモデルを超えるパフォーマンス
Janus-Proは従来の統一モデルを超えて、タスク特化型モデルと比較しても優れたパフォーマンスを示します。そのシンプルさ、高い柔軟性、効率性により、Janus-Proは次世代の統一マルチモーダルモデルの有力な競争者となっています。

統一マルチモーダル大規模言語モデル
Janus-Proは統一マルチモーダル大規模言語モデル(MLLM)であり、視覚的エンコーディングプロセスをマルチモーダル理解および生成からデカップリングすることで、より効率的な処理を実現します。Janus-Proは、DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-baseモデルを基に構築されています。マルチモーダル理解タスクでは、Janus-ProはSigLIP-Lを視覚的エンコーダーとして採用し、384x384ピクセルの画像入力に対応しています。画像生成タスクでは、Janus-Proは特定のソースからのトークナイザーを使用し、ダウンサンプリング率は16です。

進化したバージョンと改良点
Janus-Proは、前作Janusの進化版です。具体的には、Janus-Proは最適化されたトレーニング戦略、拡張されたトレーニングデータ、およびより大きなモデルスケールを統合しています。これらの改良により、Janus-Proはマルチモーダル理解およびテキストから画像への指示追従能力で顕著な進展を遂げ、テキストから画像への生成の安定性も向上しました。

JanusFlowアーキテクチャ
公式の説明によると、JanusFlowは最小限のアーキテクチャを導入し、自己回帰型言語モデルと正規化フロー(最先端の生成モデル手法)を統合しています。研究によると、正規化フローは複雑なアーキテクチャ調整なしで、大規模言語モデルフレームワーク内で直接トレーニングできることが分かっています。広範な実験により、JanusFlowは専門的なモデルと同等、またはそれ以上のパフォーマンスを示し、標準的なベンチマークテストでは既存の統一アプローチを大幅に上回っています。この成果は、より効率的で汎用的な視覚言語モデルに向けた重要な一歩を示しています。

結論
DeepSeekのオープンソースJanus-Pro-7Bモデルは、革新的な自己回帰型フレームワークとデカップリングされた視覚エンコーディングプロセスにより、マルチモーダル理解および生成タスクで優れた成果を挙げ、Stable DiffusionおよびDALL-E 3を超越しました。Janus-Proのリリースは、DeepSeekの技術的な先進性を示すとともに、開発者に強力なツールを提供し、マルチモーダルモデルの発展を推進しています。

具体の住所:GitHub 和 HuggingFace