DeepSeek arrive en tête des classements de téléchargement de l’App Store d’Apple; les avantages technologiques et de coût sont clés.
DeepSeek Atteint le Sommet
Le 27 janvier, l'application DeepSeek a atteint la première place du classement des téléchargements d'applications gratuites dans l'App Store des États-Unis, surpassant ChatGPT. En même temps, DeepSeek a également occupé la première place dans le classement des applications gratuites de l'App Store en Chine. Cet exploit a attiré une attention considérable.
Avantages Doubles en Technologie et en Coût
L'académicien de l'Académie chinoise d'ingénierie et professeur au département d'informatique de l'Université Tsinghua, Zheng Weimin, ainsi que plusieurs experts de l'IA, ont indiqué lors d'une interview avec Sina Tech les raisons clés du succès de DeepSeek. Actuellement, l'admiration de l'industrie pour DeepSeek se concentre principalement sur trois aspects : Percées Technologiques
Tout d'abord, sur le plan technologique, les modèles DeepSeek-V3 et DeepSeek-R1, qui se trouvent derrière DeepSeek, ont atteint des capacités comparables aux modèles GPT-4 et GPT-3 d'OpenAI. Ces deux modèles ont montré d'excellentes performances et ont été largement reconnus dans l'industrie.
Avantage de Coût
Deuxièmement, les deux modèles développés par DeepSeek coûtent beaucoup moins cher, représentant environ un dixième du coût des modèles GPT-4 et GPT-3 d'OpenAI. Cet avantage de coût place DeepSeek dans une position favorable dans la compétition sur le marché.
Stratégie Open Source
Troisièmement, DeepSeek a rendu la technologie de ces deux modèles open source, permettant ainsi à davantage d'équipes d'IA de développer des applications natives d'IA basées sur les modèles les plus avancés et les plus rentables. Cette stratégie open source a non seulement favorisé la diffusion et l'application de la technologie, mais a également renforcé l'influence de la marque DeepSeek.
Le Secret de la Réduction des Coûts des Modèles
Zheng Weimin a souligné que les architectures MLA et MOE développées par DeepSeek ont joué un rôle clé dans la réduction des coûts d'entraînement des modèles. MLA réduit la taille du KV-Cache en modifiant l'opérateur d'attention, permettant de stocker plus de KV-Cache dans le même volume. Cette architecture, associée aux modifications de la couche FFN dans le modèle DeepSeek-V3, a permis la création d'une très grande couche MoE sparse, ce qui est devenu un facteur clé des faibles coûts d'entraînement de DeepSeek.
Technologie d'Optimisation du KV-Cache
Le KV-Cache est une technologie d'optimisation utilisée pour stocker les paires clé-valeur des tokens générés pendant l'exécution des modèles IA, afin d'améliorer l'efficacité des calculs. En utilisant la "conversion en stockage", elle évite les calculs redondants, qui commencent à chaque fois par le premier token dans de nombreux grands modèles, améliorant ainsi l'efficacité de l'utilisation de la puissance de calcul.
Résolution des Problèmes de Performance des Modèles MoE
De plus, DeepSeek a résolu les problèmes de performance des "modèles MoE très grands et très dispersés". L'utilisation de modèles experts MoE pour améliorer la capacité cognitive des grands modèles d'IA est devenue une méthode reconnue dans l'industrie, mais une augmentation du nombre de modèles experts peut entraîner des résultats moins précis. DeepSeek se distingue par sa capacité à entraîner des MoE et devient la première entreprise à réussir l'entraînement d'un MoE aussi grand.
Technologie Efficace d'Activation des Modèles Experts
Pour assurer le bon fonctionnement des grands modèles MoE, DeepSeek utilise une technologie avancée de gestion équilibrée des experts qui ne nécessite pas de fonctions de perte auxiliaires. Cela garantit que pour chaque token, une petite quantité de paramètres du réseau d'experts est activée et que les différents réseaux d'experts sont activés de manière plus équilibrée, évitant ainsi les surcharges d'activation des réseaux d'experts. En outre, DeepSeek exploite la conception d'activation sparse des réseaux d'experts et limite le nombre de tokens envoyés aux nœuds du cluster GPU, ce qui permet de maintenir les coûts de communication entre les GPU à un niveau bas.
Conclusion
Grâce à ses avantages technologiques et de coût, l'application DeepSeek a réussi à atteindre les premières positions des classements de téléchargements de l'App Store. Les innovations en matière de performance et de coût des modèles DeepSeek-V3 et DeepSeek-R1, ainsi que la mise en œuvre de la stratégie open source, ont permis à DeepSeek de réaliser des progrès significatifs dans le domaine de l'IA. À l'avenir, DeepSeek devrait continuer à diriger le développement des applications d'IA et à apporter davantage d'innovation et de commodité aux utilisateurs.