De nieuwe Chatbot van Deepseek heeft een indrukwekkende introductie: "Hallo, ik ben gemaakt zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zelfs zou verrassen." Deze AI, een product van de Chinese startup Deepseek, is snel een belangrijke marktspeler geworden en heeft zelfs bijgedragen aan een aanzienlijke daling van de aandelenkoers van Nvidia.

Het concurrentievoordeel van Deepseek ligt in zijn innovatieve architectuur- en trainingsmethoden. Belangrijkste technologieën zijn onder meer:
- Multi-token voorspelling (MTP): in plaats van woorden afzonderlijk te voorspellen, voorspelt MTP meerdere woorden tegelijkertijd, waardoor de nauwkeurigheid en efficiëntie worden verhoogd.
- Mix van experts (MOE): deze architectuur maakt gebruik van meerdere neurale netwerken, versnellen van training en het verbeteren van de prestaties. Deepseek V3 gebruikt 256 netwerken en activeert acht voor elk token.
- Multi-head latente aandacht (MLA): MLA richt zich herhaaldelijk op cruciale zinsonderdelen, waardoor het risico op het overzien van belangrijke informatie wordt geminimaliseerd.
Deepseek beweerde aanvankelijk zijn krachtige Deepseek V3 -neurale netwerk te hebben getraind voor slechts $ 6 miljoen met behulp van 2048 GPU's. Semianyse onthulde echter een veel grotere infrastructuur: ongeveer 50.000 NVIDIA -hopper GPU's, waaronder 10.000 H800s, 10.000 H100s en extra H20's, verspreid over meerdere datacenters. Dit vertegenwoordigt een totale serverinvestering van ongeveer $ 1,6 miljard, met operationele kosten geschat op $ 944 miljoen.

Deepseek, een dochteronderneming van het Chinese hedgefonds High Flyer, bezit zijn datacenters en biedt een ongeëvenaarde controle over optimalisatie en implementatie van innovatie. Deze zelf gefinancierde aanpak bevordert behendigheid en snelle besluitvorming. Het bedrijf trekt ook toptalent aan, met sommige onderzoekers die jaarlijks meer dan $ 1,3 miljoen verdienen, voornamelijk van Chinese universiteiten.

De initiële claim van Deepseek's eerste $ 6 miljoen trainingskosten is misleidend; Het weerspiegelt alleen pre-training GPU-gebruik, exclusief onderzoek, verfijning, gegevensverwerking en infrastructuur. De totale investering van het bedrijf in AI -ontwikkeling is groter dan $ 500 miljoen. Ondanks deze substantiële investering zorgt de lean structuur mogelijk voor een efficiënte implementatie van innovatie.

Het succes van Deepseek toont het potentieel van goed gefinancierde onafhankelijke AI-bedrijven om te concurreren met industriële reuzen. De prestaties ervan zijn echter te wijten aan miljarden investeringen, technische doorbraken en een sterk team, geen revolutionair budget. Toch blijven de kosten van Deepseek aanzienlijk lager dan concurrenten. Deepseek besteedde bijvoorbeeld $ 5 miljoen aan R1, vergeleken met Chatgpt's $ 100 miljoen voor Chatgpt4o. Dit benadrukt het aanzienlijke kostenvoordeel, ondanks de opgeblazen initiële claims.