O novo chatbot de Deepseek possui uma introdução impressionante: "Oi, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo". Esta IA, um produto da startup chinesa Deepseek, tornou -se rapidamente um dos principais players de mercado, contribuindo para uma queda significativa no preço das ações da NVIDIA.

A vantagem competitiva da Deepseek está em seus métodos inovadores de arquitetura e treinamento. As principais tecnologias incluem:
- Previsão com vários toques (MTP): Em vez de prever palavras individualmente, o MTP prevê várias palavras simultaneamente, aumentando a precisão e a eficiência.
- Mistura de especialistas (MOE): Esta arquitetura usa várias redes neurais, acelerando o treinamento e melhorando o desempenho. O Deepseek V3 utiliza 256 redes, ativando oito para cada token.
- Atenção latente de várias cabeças (MLA): O MLA se concentra nas peças cruciais da frase repetidamente, minimizando o risco de ignorar informações importantes.
A Deepseek alegou inicialmente ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões usando 2048 GPUs. No entanto, a semiânica revelou uma infraestrutura muito maior: aproximadamente 50.000 GPUs NVIDIA Hopper, incluindo 10.000 H800s, 10.000 H100s e H20s adicionais, espalhados por vários data centers. Isso representa um investimento total do servidor de aproximadamente US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões.

A Deepseek, uma subsidiária do fundo de hedge chinês, possui seus data centers, fornecendo controle incomparável sobre a otimização e a implementação da inovação. Essa abordagem autofinanciada promove a agilidade e a rápida tomada de decisão. A empresa também atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.

A reivindicação inicial de custo de treinamento de US $ 6 milhões da Deepseek é enganosa; Ele reflete apenas o uso de GPU pré-treinamento, excluindo pesquisas, refinamento, processamento de dados e infraestrutura. O investimento total da empresa no desenvolvimento da IA excede US $ 500 milhões. Apesar desse investimento substancial, sua estrutura enxuta permite uma implementação eficiente da inovação.

O sucesso da Deepseek mostra o potencial de empresas independentes de IA bem financiadas para competir com os gigantes do setor. No entanto, suas realizações são atribuídas a bilhões em investimento, avanços técnicos e uma equipe forte, não um orçamento revolucionário. Mesmo assim, os custos da Deepseek permanecem significativamente menores que os concorrentes. Por exemplo, a Deepseek gastou US $ 5 milhões em R1, em comparação com os US $ 100 milhões da ChatGPT para ChatGPT4O. Isso destaca a vantagem de custo significativa, apesar das reivindicações iniciais infladas.