DeepSeek возглавляет чарты загрузок App Store Apple; ключевыми являются технологические и ценовые преимущества.
DeepSeek Достиг Вершины
27 января приложение DeepSeek заняло первое место в рейтинге бесплатных загрузок приложений в App Store США, обогнав ChatGPT. В то же время, DeepSeek также занял первое место в списке бесплатных приложений App Store в Китае. Этот успех вызвал широкий интерес.
Двойные Преимущества Технологий и Стоимости
Член Китайской академии инженерных наук, профессор кафедры информатики в Университете Цинхуа Чжэн Вэйминь и несколько специалистов в области ИИ в интервью с Sina Tech указали на ключевые причины успеха DeepSeek. На данный момент восторженные отклики в адрес DeepSeek сосредоточены на трех аспектах: Технологические Прорывы
Во-первых, с технической точки зрения модели DeepSeek-V3 и DeepSeek-R1, которые лежат в основе DeepSeek, достигли уровня моделей GPT-4 и GPT-3 от OpenAI. Эти две модели продемонстрировали отличные результаты и получили высокую оценку в отрасли.
Преимущество по Стоимости
Во-вторых, модели, разработанные DeepSeek, гораздо дешевле, стоя всего примерно одну десятую от стоимости моделей GPT-4 и GPT-3 от OpenAI. Это преимущество по стоимости дает DeepSeek конкурентное преимущество на рынке.
Открытая Стратегия
Третьим преимуществом является то, что DeepSeek сделала технологии этих двух моделей открытыми, что позволяет большему количеству команд по ИИ разрабатывать новые ИИ-приложения на базе самых передовых и самых экономичных моделей. Открытая стратегия не только способствовала распространению и применению технологий, но и повысила бренд DeepSeek.
Секрет Снижения Стоимости Моделей
Чжэн Вэйминь отметил, что собственные архитектуры MLA и MOE, разработанные DeepSeek, сыграли ключевую роль в снижении стоимости обучения моделей. MLA уменьшает размер KV-Cache путем изменения оператора внимания, что позволяет хранить больше KV-Cache в том же объеме. Эта архитектура, совместно с изменениями слоя FFN в модели DeepSeek-V3, позволила создать очень большую разреженную MoE-слой, что стало основным фактором низкой стоимости обучения моделей DeepSeek.
Технология Оптимизации KV-Cache
KV-Cache — это технология оптимизации, которая используется для хранения пар ключ-значение токенов, генерируемых в процессе работы модели ИИ, с целью повышения вычислительной эффективности. Использование "преобразования в хранение" позволяет избежать повторных вычислений, начинающихся с первого токена, что повышает эффективность использования вычислительных ресурсов.
Решение Проблемы Производительности MoE-Моделей
Кроме того, DeepSeek решила проблему производительности "очень больших и одновременно очень разреженных MoE-моделей". Использование MoE-моделей для улучшения когнитивных способностей больших ИИ-моделей признано эффективным методом в отрасли, однако увеличение числа моделей экспертов может привести к неточным результатам. DeepSeek выделяется своей способностью обучать MoE, став первой компанией, успешно обучившей такое большое MoE.
Эффективная Технология Активации Моделей Экспертов
Для обеспечения сбалансированной работы больших MoE-моделей, DeepSeek использует продвинутую технологию балансировки загрузки экспертов, которая не требует вспомогательных функций потерь. Это обеспечивает активирование небольшой части параметров сети экспертов для каждого токена и более сбалансированное активирование различных сетей экспертов, предотвращая перегрузки активации. Кроме того, DeepSeek использует проектирование разреженной активации сетей экспертов и ограничивает количество токенов, отправляемых на узлы GPU-кластера, что позволяет поддерживать низкие затраты на коммуникацию между GPU.
Заключение
Благодаря своим технологическим и затратным преимуществам приложение DeepSeek успешно достигло вершины списка скачиваний в App Store. Прорывы в производительности и стоимости моделей DeepSeek-V3 и DeepSeek-R1, а также реализация стратегии с открытым исходным кодом позволили DeepSeek добиться значительного успеха в области ИИ. В будущем DeepSeek, вероятно, продолжит вести развитие приложений ИИ и предложит пользователям больше инноваций и удобства.