Deepseekの新しいチャットボットには、印象的な紹介があります。中国のスタートアップDeepSeekの製品であるこのAIは、急速に主要な市場プレーヤーになり、Nvidiaの株価の大幅な低下に貢献しています。

Deepseekの競争力は、革新的なアーキテクチャとトレーニング方法にあります。重要なテクノロジーには次のものがあります。
- マルチトークン予測(MTP):単語を個別に予測する代わりに、MTPは複数の単語を同時に予測し、精度と効率を高めます。
- 専門家(MOE)の混合:このアーキテクチャは、複数のニューラルネットワークを使用し、トレーニングの加速とパフォーマンスの向上を使用しています。 Deepseek V3は256のネットワークを利用して、トークンごとに8つをアクティブにします。
- マルチヘッド潜在的注意(MLA): MLAは、重要な情報を繰り返し繰り返し焦点を当て、重要な情報を見落とすリスクを最小限に抑えます。
Deepseekは当初、2048 GPUを使用して600万ドルで強力なDeepseek V3ニューラルネットワークを訓練したと主張しました。ただし、セミアン癒合により、はるかに大きなインフラストラクチャが明らかになりました。10,000H800、10,000 H100、および追加のH20を含む約50,000のNVIDIAホッパーGPUが複数のデータセンターに広がっています。これは、サーバーの総投資額を約16億ドルで、運用費用は9億4,400万ドルと推定されています。

中国のヘッジファンドのハイフライヤーの子会社であるDeepseekは、データセンターを所有しており、最適化とイノベーションの実装を比類のない管理を提供しています。この自己資金によるアプローチは、敏ility性と迅速な意思決定を促進します。同社はまた、主に中国の大学で年間130万ドル以上を稼ぎ、トップの才能を獲得しています。

Deepseekの最初の600万ドルのトレーニングコスト請求は誤解を招くものです。これは、研究、洗練、データ処理、インフラストラクチャを除く、トレーニング前のGPU使用のみを反映しています。同社のAI開発への総投資は5億ドルを超えています。この実質的な投資にもかかわらず、その無駄のない構造により、効率的なイノベーションの実装が可能になります。

Deepseekの成功は、資金提供された独立したAI企業が業界の巨人と競争する可能性を示しています。ただし、その成果は、革新的な予算ではなく、投資、技術的なブレークスルー、および強力なチームの数十億人の投資に起因しています。それでも、Deepseekのコストは競合他社よりも大幅に低いままです。たとえば、DeepseekはChatGPTのChatGPT4Oの1億ドルと比較して、R1に500万ドルを費やしました。これは、初期請求が膨らんだにもかかわらず、かなりのコストの優位性を強調しています。