DeepSeek lidera as paradas de downloads da App Store da Apple; vantagens tecnológicas e de custo são fundamentais.

DeepSeek Chega ao Topo
Em 27 de janeiro, o aplicativo DeepSeek alcançou o primeiro lugar no ranking de downloads gratuitos da App Store dos EUA, superando o ChatGPT. Ao mesmo tempo, o DeepSeek também ocupou o primeiro lugar na lista de aplicativos gratuitos da App Store da China. Esse sucesso gerou uma ampla atenção.

Vantagens Técnicas e de Custo
O acadêmico da Academia Chinesa de Engenharia, professor do Departamento de Ciência da Computação da Universidade Tsinghua, Zheng Weimin, e vários especialistas em IA, explicaram em entrevista ao Sina Tech o que levou ao sucesso do DeepSeek. Atualmente, os elogios da indústria ao DeepSeek concentram-se principalmente em três aspectos. Avanços Técnicos
Primeiramente, do ponto de vista técnico, o DeepSeek, com seus modelos DeepSeek-V3 e DeepSeek-R1, alcançou o nível das capacidades dos modelos GPT-4 e GPT-3 da OpenAI. Estes dois modelos demonstraram desempenho impressionante e receberam grande reconhecimento na indústria.

Vantagem de Custo
Em segundo lugar, os modelos desenvolvidos pela DeepSeek possuem um custo muito mais baixo, cerca de um décimo do custo dos modelos GPT-4 e GPT-3 da OpenAI. Essa vantagem de custo coloca a DeepSeek em uma posição competitiva no mercado.

Estratégia de Código Aberto
Em terceiro lugar, a DeepSeek disponibilizou as tecnologias desses dois modelos em código aberto, permitindo que mais equipes de IA desenvolvam novos aplicativos nativos de IA com base nos modelos mais avançados e com menor custo. A estratégia de código aberto não apenas impulsionou a disseminação e aplicação de tecnologias, mas também aumentou a influência da marca DeepSeek.

O Segredo da Redução de Custos dos Modelos
Zheng Weimin afirmou que as arquiteturas MLA e MOE, desenvolvidas pela DeepSeek, desempenharam um papel crucial na redução dos custos de treinamento dos modelos. A MLA, ao modificar o operador de atenção, comprimiu o tamanho do KV Cache, permitindo armazenar mais KV Cache na mesma capacidade. Essa arquitetura, combinada com modificações na camada FFN do modelo DeepSeek-V3, criou uma camada MoE altamente esparsa, que foi a principal razão para a redução nos custos de treinamento da DeepSeek.

Tecnologia de Otimização do KV Cache
O KV Cache é uma tecnologia de otimização usada para armazenar pares de chave-valor de tokens gerados durante a execução do modelo de IA, com o objetivo de melhorar a eficiência computacional. Ao usar o “armazenamento em troca de cálculos”, evita-se a repetição dos cálculos a partir do primeiro token, melhorando a eficiência do uso de recursos computacionais.

Resolução de Problemas de Desempenho em Modelos MoE
Além disso, a DeepSeek resolveu o problema de desempenho dos "modelos MoE extremamente grandes e extremamente esparsos". O uso de modelos MoE para melhorar as habilidades cognitivas de grandes modelos de IA tornou-se uma técnica eficaz reconhecida na indústria, mas o aumento do número de modelos de especialistas pode resultar em resultados imprecisos. A DeepSeek se destaca pela sua capacidade de treinar MoE, tornando-se a primeira empresa a treinar com sucesso um MoE tão grande.

Tecnologia Eficiente de Ativação de Modelos de Especialistas
Para garantir o funcionamento equilibrado de modelos de especialistas MoE em larga escala, a DeepSeek usa uma tecnologia avançada de balanceamento de carga de especialistas que não requer funções auxiliares de perda. Isso garante que, para cada token, apenas uma pequena quantidade de parâmetros da rede de especialistas seja realmente ativada, permitindo que diferentes redes de especialistas sejam ativadas de forma mais equilibrada, evitando sobrecarga de ativação. Além disso, a DeepSeek aproveita o design de ativação esparsa das redes de especialistas e limita o número de tokens enviados aos nós do cluster de GPU, mantendo o custo de comunicação entre as GPUs em um nível baixo.

Conclusão
Graças às suas vantagens tecnológicas e de custo, o aplicativo DeepSeek conseguiu alcançar o topo das listas de downloads da App Store. As inovações em termos de desempenho e custo dos modelos DeepSeek-V3 e DeepSeek-R1, assim como a implementação da estratégia de código aberto, permitiram que a DeepSeek alcançasse um sucesso significativo no campo da IA. No futuro, a DeepSeek provavelmente continuará liderando o desenvolvimento de aplicativos de IA e trazendo mais inovação e conveniência para os usuários.