Le nouveau chatbot de Deepseek possède une introduction impressionnante: "Salut, j'ai été créé pour que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre." Cette IA, un produit de la startup chinoise Deepseek, est rapidement devenue un acteur majeur du marché, contribuant même à une baisse significative du cours des actions de Nvidia.

L'avantage concurrentiel de Deepseek réside dans son architecture innovante et ses méthodes de formation. Les technologies clés comprennent:
- Prédiction multi-token (MTP): Au lieu de prédire les mots individuellement, MTP prévoit plusieurs mots simultanément, augmentant la précision et l'efficacité.
- Mélange d'experts (MOE): Cette architecture utilise plusieurs réseaux de neurones, accélérant la formation et améliorant les performances. Deepseek V3 utilise 256 réseaux, activant huit pour chaque jeton.
- Attention latente multi-tête (MLA): MLA se concentre sur les parties cruciales à plusieurs reprises, minimisant le risque de négliger des informations importantes.
Deepseek a initialement affirmé avoir formé son puissant réseau neuronal Deepseek V3 pour seulement 6 millions de dollars en utilisant 2048 GPU. Cependant, la semianalyse a révélé une infrastructure beaucoup plus grande: environ 50 000 GPU de trémie NVIDIA, dont 10 000 H800, 10 000 H100 et H20S supplémentaires, répartis sur plusieurs centres de données. Cela représente un investissement total de serveur d'environ 1,6 milliard de dollars, avec des dépenses opérationnelles estimées à 944 millions de dollars.

Deepseek, une filiale du High Flyer de fonds spéculatifs chinois, possède ses centres de données, fournissant un contrôle inégalé sur l'optimisation et la mise en œuvre de l'innovation. Cette approche autofinancée favorise l'agilité et la prise de décision rapide. La société attire également les meilleurs talents, certains chercheurs gagnant plus de 1,3 million de dollars par an, principalement des universités chinoises.

La demande de coût de formation initiale de 6 millions de dollars de Deepseek est trompeuse; Il ne reflète que l'utilisation du GPU avant la formation, à l'exclusion de la recherche, du raffinement, du traitement des données et des infrastructures. L'investissement total de la société dans le développement de l'IA dépasse 500 millions de dollars. Malgré cet investissement substantiel, sa structure Lean permet une mise en œuvre efficace de l'innovation.

Le succès de Deepseek présente le potentiel des sociétés d'IA indépendantes bien financées pour rivaliser avec les géants de l'industrie. Cependant, ses réalisations sont attribuables à des milliards d'investissements, des percées techniques et une équipe solide, et non un budget révolutionnaire. Malgré cela, les coûts de Deepseek restent considérablement inférieurs à ceux des concurrents. Par exemple, Deepseek a dépensé 5 millions de dollars pour R1, par rapport aux 100 millions de dollars de Chatgpt pour Chatgpt4O. Cela met en évidence l'avantage de coût important, malgré les réclamations initiales gonflées.