DeepSeek encabeza las listas de descargas de la App Store de Apple; las ventajas tecnológicas y de costos son clave
DeepSeek Alcanzó el Éxito
El 27 de enero, la aplicación DeepSeek alcanzó el primer lugar en el ranking de descargas gratuitas de aplicaciones de la App Store de EE. UU., superando a ChatGPT. Al mismo tiempo, DeepSeek también ocupó el primer lugar en el ranking de aplicaciones gratuitas en la App Store de China. Este logro ha atraído una amplia atención.
Ventajas Duales en Tecnología y Costos
El académico de la Academia China de Ingeniería y profesor del Departamento de Informática de la Universidad Tsinghua, Zheng Weimin, junto con varios expertos de la industria de la IA, señalaron en una entrevista con Sina Tech las claves del éxito de DeepSeek. Actualmente, la admiración de la industria por DeepSeek se centra principalmente en tres aspectos: Avances Tecnológicos
En primer lugar, en el ámbito tecnológico, los modelos DeepSeek-V3 y DeepSeek-R1 de DeepSeek han logrado capacidades comparables a los modelos GPT-4 y GPT-3 de OpenAI. Estos dos modelos han mostrado un rendimiento excelente y han recibido un alto reconocimiento en la industria.
Ventaja en Costos
En segundo lugar, los dos modelos desarrollados por DeepSeek tienen un costo mucho más bajo, representando aproximadamente una décima parte del costo de los modelos GPT-4 y GPT-3 de OpenAI. Esta ventaja en costos pone a DeepSeek en una posición favorable en la competencia del mercado.
Estrategia de Código Abierto
En tercer lugar, DeepSeek ha hecho que la tecnología de estos dos modelos esté disponible como código abierto, lo que permite que más equipos de IA desarrollen aplicaciones nativas de IA basadas en los modelos más avanzados y a la vez más rentables. Esta estrategia de código abierto no solo ha promovido la difusión y aplicación de la tecnología, sino que también ha aumentado la influencia de la marca DeepSeek.
El Secreto Detrás de la Reducción de Costos de los Modelos
Zheng Weimin destacó que las arquitecturas MLA y MOE de DeepSeek han jugado un papel clave en la reducción de los costos de entrenamiento de sus modelos. MLA principalmente comprime el tamaño del KV Cache modificando los operadores de atención, permitiendo almacenar más KV Cache en la misma capacidad. Esta arquitectura, junto con las modificaciones en la capa FFN del modelo DeepSeek-V3, ha permitido la creación de una capa MoE esparsa muy grande, lo que se ha convertido en la clave de los bajos costos de entrenamiento de DeepSeek.
Tecnología de Optimización de KV Cache
KV Cache es una tecnología de optimización utilizada para almacenar los pares clave-valor de los tokens generados durante la operación de los modelos de IA, mejorando la eficiencia computacional. A través de "cálculos basados en almacenamiento", se evita el cálculo repetido que comienza con el primer token en la mayoría de los modelos grandes, mejorando la eficiencia del uso de la potencia computacional.
Solución a los Problemas de Rendimiento de los Modelos MoE
Además, DeepSeek ha resuelto los problemas de rendimiento de los "modelos MoE muy grandes y muy dispersos". El uso de modelos expertos MoE para mejorar la capacidad cognitiva de los grandes modelos de IA se ha convertido en un método reconocido en la industria, pero el aumento del número de modelos expertos puede generar resultados menos precisos. DeepSeek se destaca por su capacidad para entrenar MoE, convirtiéndose en la primera empresa en entrenar con éxito un MoE tan grande.
Tecnología Eficiente de Activación de Modelos Expertos
Para garantizar el funcionamiento equilibrado de los grandes modelos MoE, DeepSeek utiliza una avanzada tecnología de carga equilibrada de expertos que no requiere funciones de pérdida auxiliares. Esto asegura que, para cada token, una pequeña cantidad de parámetros de la red de expertos se activen realmente y que diferentes redes de expertos se activen de manera más equilibrada, evitando la congestión en la activación de las redes de expertos. Además, DeepSeek aprovecha el diseño de activación esparsa de las redes de expertos, limitando la cantidad de tokens enviados a los nodos del clúster de GPU, lo que mantiene el sobrecosto de comunicación entre las GPUs en niveles bajos.
Conclusión
Gracias a sus ventajas tecnológicas y de costos, la aplicación DeepSeek ha alcanzado con éxito los primeros lugares en el ranking de descargas de la App Store. Las innovaciones en el rendimiento y los costos de los modelos DeepSeek-V3 y DeepSeek-R1, junto con la implementación de la estrategia de código abierto, han permitido que DeepSeek logre importantes avances en el campo de la IA. En el futuro, se espera que DeepSeek continúe liderando el desarrollo de aplicaciones de IA y brinde más innovación y comodidad a los usuarios.