DeepSeek 登頂蘋果應用商店下載榜,技術與成本優勢成關鍵。
DeepSeek 成功登顶
1月27日,DeepSeek应用登顶苹果美国地区应用商店免费App下载排行榜,超越了ChatGPT。同时,DeepSeek也在苹果中国区应用商店免费榜中名列第一。这一成就引发了广泛关注。
技术与成本的双重优势
中国工程院院士、清华大学计算机系教授郑纬民及多位AI圈人士在与新浪科技沟通中,指出了DeepSeek其成功出圈的关键所在。目前,业界对DeepSeek的喜爱与赞美,主要集中在三个方面:技术层面的突破
首先,在技术层面,DeepSeek背后的DeepSeek-V3及公司新近推出的DeepSeek-R1两款模型,分别实现了比肩OpenAI GPT-4和GPT-3模型的能力。这两款模型在性能上表现出色,得到了业内的高度认可。
成本优势
其次,DeepSeek研发的这两款模型成本更低,仅为OpenAI GPT-4和GPT-3模型的十分之一左右。这一成本优势使得DeepSeek在市场竞争中占据了有利位置。
开源策略
第三,DeepSeek将这两大模型的技术开源,这让更多的AI团队能够基于最先进同时成本最低的模型,开发更多的AI原生应用。开源策略不仅促进了技术的传播和应用,也提升了DeepSeek的品牌影响力。
模型成本降低的秘密
郑纬民指出,DeepSeek自研的MLA架构和DeepSeek MOE架构,为其自身的模型训练成本下降起到了关键作用。MLA主要通过改造注意力算子压缩了KV Cache大小,实现了在同样容量下可以存储更多的KV Cache,该架构和DeepSeek-V3模型中FFN层的改造相配合,实现了一个非常大的稀疏MoE层,这成为DeepSeek训练成本低最关键的原因。
KV Cache优化技术
KV Cache是一种优化技术,常被用于存储人工智能模型运行时产生的token的键值对,以提高计算效率。通过“以存换算”避免了多数大模型运算每次都是从第一个token开始运算的重复计算,提升了算力使用效率。
解决MoE模型性能难题
此外,DeepSeek还解决了“非常大同时非常稀疏的MoE模型”使用的性能难题。通过MoE混合专家模型提升AI大模型的专业认知能力正成为业界公认的有效手段,但专家模型变多可能导致最终生成的结果不太准确。DeepSeek比较厉害的是训练MoE的能力,成为公开MoE模型训练中第一个能训练成功这么大MoE的企业。
高效的专家模型激活技术
为保证大规模MoE专家模型的均衡运行,DeepSeek使用了先进的、不需要辅助损失函数的、专家加载均衡技术,保证每个token下,少量专家网络参数被真正激活的情况下,不同的专家网络能够以更均衡的频率被激活,防止专家网络激活扎堆。此外,DeepSeek还充分利用专家网络被稀疏激活的设计,限制了每个token被发送往GPU集群节点的数量,这使得GPU之间通信开销稳定在较低的水位。
总结
DeepSeek应用凭借其技术与成本优势,成功登顶苹果应用商店下载榜。其背后的DeepSeek-V3和DeepSeek-R1模型在性能和成本上的突破,以及开源策略的实施,使得DeepSeek在AI领域取得了显著的成就。未来,DeepSeek有望继续引领AI应用的发展,为用户带来更多创新和便利。