Il nuovo chatbot di Deepseek vanta un'impressionante introduzione: "Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti." Questa intelligenza artificiale, un prodotto della startup cinese Deepseek, è rapidamente diventata un importante giocatore di mercato, contribuendo anche a un calo significativo del prezzo delle azioni di Nvidia.

Il bordo competitivo di Deepseek risiede nella sua architettura innovativa e metodi di formazione. Le tecnologie chiave includono:
- Multi-token Prediction (MTP): Invece di prevedere le parole individualmente, MTP prevede contemporaneamente più parole, aumentando l'accuratezza ed efficienza.
- Miscela di esperti (MOE): questa architettura utilizza più reti neurali, accelerare la formazione e migliorare le prestazioni. DeepSeek V3 utilizza 256 reti, attivando otto per ogni token.
- Attenzione latente multi-testa (MLA): MLA si concentra ripetutamente sulle parti cruciali delle frasi, minimizzando il rischio di trascurare informazioni importanti.
Deepseek inizialmente ha affermato di aver addestrato la sua potente rete neurale Deepseek V3 per soli $ 6 milioni utilizzando 2048 GPU. Tuttavia, la semianalisi ha rivelato un'infrastruttura molto più grande: circa 50.000 GPU di Nvidia Hopper, tra cui 10.000 H800, 10.000 H100 e H20 aggiuntivi, distribuiti su più data center. Ciò rappresenta un investimento in totale server di circa $ 1,6 miliardi, con spese operative stimate in $ 944 milioni.

DeepSeek, una consociata dell'Hedge Fund cinese High-Flyer, possiede i suoi data center, fornendo un controllo senza pari sull'ottimizzazione e sull'implementazione dell'innovazione. Questo approccio autofinanziato promuove l'agilità e il rapido processo decisionale. La società attira anche i migliori talenti, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno, principalmente dalle università cinesi.

La richiesta di costo di allenamento iniziale di $ 6 milioni di Deepseek è fuorviante; Riflette solo l'utilizzo della GPU pre-allenamento, escluso la ricerca, il raffinamento, l'elaborazione dei dati e l'infrastruttura. L'investimento totale della società nello sviluppo dell'IA supera i $ 500 milioni. Nonostante questo investimento sostanziale, la sua struttura snella consente un'efficace implementazione dell'innovazione.

Il successo di Deepseek mostra il potenziale di società di intelligenza artificiale ben finanziate per competere con i giganti del settore. Tuttavia, i suoi risultati sono attribuibili a miliardi di investimenti, scoperte tecniche e una squadra forte, non un budget rivoluzionario. Anche così, i costi di Deepseek rimangono significativamente più bassi rispetto ai concorrenti. Ad esempio, DeepSeek ha speso $ 5 milioni in R1, rispetto ai $ 100 milioni di Chatgpt per Chatgpt4o. Ciò evidenzia il significativo vantaggio in termini di costi, nonostante le affermazioni iniziali gonfiate.