DeepSeek führt die Download-Charts des Apple App Stores an; technologische und kostentechnische Vorteile sind entscheidend.

DeepSeek erreicht den Gipfel
Am 27. Januar erreichte die DeepSeek-App den ersten Platz in den kostenlosen App-Download-Rankings des Apple App Stores in den USA und überholte ChatGPT. Gleichzeitig belegte DeepSeek auch den ersten Platz im kostenlosen App-Ranking des Apple App Stores in China. Dieser Erfolg hat weitreichende Aufmerksamkeit erregt.

Doppelte Vorteile in Technologie und Kosten
Der Akademiker der Chinesischen Akademie der Ingenwissenschaften und Professor für Informatik an der Tsinghua-Universität, Zheng Weimin, sowie mehrere AI-Experten wiesen in einem Gespräch mit Sina Tech auf die Schlüsselfaktoren des Erfolgs von DeepSeek hin. Derzeit konzentriert sich die Bewunderung der Branche für DeepSeek hauptsächlich auf drei Aspekte: Technologische Durchbrüche
Erstens, im technischen Bereich haben die Modelle DeepSeek-V3 und DeepSeek-R1, die hinter DeepSeek stehen, Fähigkeiten erreicht, die mit den OpenAI-Modellen GPT-4 und GPT-3 vergleichbar sind. Diese beiden Modelle zeichnen sich durch hervorragende Leistung aus und haben in der Branche hohe Anerkennung gefunden.

Kostenfaktor
Zweitens sind die von DeepSeek entwickelten Modelle kostengünstiger und kosten nur etwa ein Zehntel der Kosten der OpenAI-Modelle GPT-4 und GPT-3. Dieser Kostenvorteil verschafft DeepSeek eine vorteilhafte Position im Wettbewerb auf dem Markt.

Open-Source-Strategie
Der dritte Vorteil ist, dass DeepSeek die Technologien dieser beiden Modelle als Open Source veröffentlicht hat, wodurch mehr KI-Teams in der Lage sind, KI-native Anwendungen auf Basis der fortschrittlichsten und kostengünstigsten Modelle zu entwickeln. Diese Open-Source-Strategie hat nicht nur die Verbreitung und Anwendung der Technologie gefördert, sondern auch die Markenbekanntheit von DeepSeek gesteigert.

Das Geheimnis der Kostensenkung der Modelle
Zheng Weimin stellte fest, dass die von DeepSeek entwickelten MLA- und MOE-Architekturen eine Schlüsselrolle bei der Senkung der Trainingskosten der Modelle gespielt haben. MLA reduziert den KV-Cache durch Modifikation des Attention-Operators, sodass mehr KV-Cache im gleichen Volumen gespeichert werden kann. Diese Architektur in Kombination mit den Modifikationen der FFN-Schicht im DeepSeek-V3-Modell hat die Schaffung einer sehr großen spärlichen MoE-Schicht ermöglicht, was ein wesentlicher Faktor für die niedrigen Trainingskosten von DeepSeek ist.

KV-Cache-Optimierungstechnologie
KV-Cache ist eine Optimierungstechnologie, die verwendet wird, um die Schlüssel-Wert-Paare von Tokens, die während der Modelloperation erzeugt werden, zu speichern, um die Rechenleistung zu steigern. Durch "Speicherung als Berechnung" wird wiederholte Berechnung vermieden, die bei vielen großen Modellen immer wieder vom ersten Token aus startet, wodurch die Rechenleistung effizienter genutzt wird.

Lösung des Leistungsproblems bei MoE-Modellen
Darüber hinaus hat DeepSeek das Leistungsproblem von "sehr großen und gleichzeitig sehr spärlichen MoE-Modellen" gelöst. Der Einsatz von MoE-Expert-Modellen zur Verbesserung der kognitiven Fähigkeiten von großen KI-Modellen gilt in der Branche als wirksames Mittel, jedoch könnte eine zu hohe Zahl an Expertenmodellen dazu führen, dass die generierten Ergebnisse ungenau werden. DeepSeek zeichnet sich durch seine Fähigkeit aus, MoE zu trainieren, und ist das erste Unternehmen, das erfolgreich ein so großes MoE-Modell trainiert hat.

Effiziente Aktivierungstechnologie für Expertenmodelle
Um eine ausgewogene Ausführung von großen MoE-Expert-Modellen sicherzustellen, verwendet DeepSeek eine fortschrittliche Expert-Load-Balancing-Technologie, die keine zusätzlichen Verlustfunktionen benötigt. Dadurch wird sichergestellt, dass bei jedem Token nur eine geringe Anzahl von Expertennetzwerkparametern tatsächlich aktiviert wird und verschiedene Expertennetzwerke in einer ausgeglicheneren Frequenz aktiviert werden, wodurch die Überlastung der Aktivierung von Expertennetzwerken vermieden wird. Darüber hinaus nutzt DeepSeek das Design der spärlichen Aktivierung von Expertennetzwerken und begrenzt die Anzahl der Tokens, die an die GPU-Clusterknoten gesendet werden, wodurch die Kommunikationskosten zwischen den GPUs auf einem niedrigen Niveau bleiben.

Fazit
Die DeepSeek-App hat dank ihrer technologischen und kostengünstigen Vorteile erfolgreich die Spitze der Download-Rankings im Apple App Store erreicht. Die Durchbrüche in der Leistung und den Kosten der Modelle DeepSeek-V3 und DeepSeek-R1 sowie die Umsetzung der Open-Source-Strategie haben DeepSeek zu einem bedeutenden Erfolg im Bereich der KI verholfen. In Zukunft wird erwartet, dass DeepSeek weiterhin die Entwicklung von KI-Anwendungen anführt und den Nutzern mehr Innovation und Komfort bietet.