Новый чат -бот DeepSeek может похвастаться впечатляющим введением: «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас». Этот ИИ, продукт китайского стартапа DeepSeek, быстро стал основным игроком на рынке, даже способствуя значительному снижению цены акций Nvidia.

Конкурентное преимущество DeepSeek заключается в его инновационной архитектуре и методах обучения. Ключевые технологии включают:
- Multi-Token Prediction (MTP): вместо прогнозирования слов индивидуально, MTP прогнозирует несколько слов одновременно, повышая точность и эффективность.
- Смесь экспертов (MOE): эта архитектура использует несколько нейронных сетей, ускорение обучения и повышения производительности. DeepSeek V3 использует 256 сети, активируя восемь для каждого токена.
- Многопользовательское скрытое внимание (MLA): MLA неоднократно фокусируется на важных частях предложения, что минимизирует риск упуска важной информации.
Первоначально DeepSeek утверждал, что обучил свою мощную нейронную сеть Deepseek V3 всего за 6 миллионов долларов, используя 2048 графических процессоров. Тем не менее, полуанализа выявил гораздо большую инфраструктуру: приблизительно 50 000 графических процессоров Nvidia Hopper, в том числе 10 000 H800, 10 000 H100 и дополнительных H20, распространяющихся по нескольким центрам обработки данных. Это составляет общие инвестиции в сервер в размере примерно 1,6 млрд. Долл. США, а эксплуатационные расходы оцениваются в 944 млн. Долл. США.

Deepseek, дочерняя компания китайского хедж-фонда High-Fund, владеет своими центрами обработки данных, обеспечивая беспрецедентный контроль над оптимизацией и внедрением инноваций. Этот самофинансируемый подход способствует ловкости и быстрому принятию решений. Компания также привлекает лучших талантов, некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в основном из китайских университетов.

Первоначальная претензия DeepSeek в 6 миллионов долларов вводит в заблуждение; Он только отражает использование графического процессора предварительного обучения, исключая исследования, уточнение, обработку данных и инфраструктуру. Общая инвестиция компании в развитие искусственного интеллекта превышает 500 миллионов долларов. Несмотря на эти существенные инвестиции, его бережливая структура позволяет эффективно реализовать инновации.

Успех DeepSeek демонстрирует потенциал хорошо финансируемых независимых компаний по искусственному ИИ, чтобы конкурировать с отраслевыми гигантами. Тем не менее, его достижения связаны с миллиардами инвестиций, технических прорывов и сильной командой, а не революционным бюджетом. Несмотря на это, затраты DeepSeek остаются значительно ниже, чем конкуренты. Например, Deepseek потратил 5 миллионов долларов на R1 по сравнению с Catgpt 100 миллионов долларов на Chatgpt4o. Это подчеркивает значительное преимущество затрат, несмотря на завышенные начальные претензии.