Chatbot mới của Deepseek tự hào về phần giới thiệu ấn tượng: "Xin chào, tôi được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên." AI này, một sản phẩm của công ty khởi nghiệp Trung Quốc Deepseek, đã nhanh chóng trở thành một người chơi thị trường lớn, thậm chí góp phần làm giảm đáng kể giá cổ phiếu của NVIDIA.

Cạnh tranh cạnh tranh của Deepseek nằm trong kiến trúc và phương pháp đào tạo sáng tạo. Công nghệ chính bao gồm:
- Dự đoán đa điểm (MTP): Thay vì dự đoán các từ riêng lẻ, MTP dự báo đồng thời nhiều từ, tăng độ chính xác và hiệu quả.
- Hỗn hợp các chuyên gia (MOE): Kiến trúc này sử dụng nhiều mạng lưới thần kinh, tăng tốc đào tạo và cải thiện hiệu suất. DeepSeek V3 sử dụng 256 mạng, kích hoạt tám mạng cho mỗi mã thông báo.
- Sự chú ý tiềm ẩn nhiều đầu (MLA): MLA tập trung vào các phần câu quan trọng nhiều lần, giảm thiểu rủi ro nhìn ra thông tin quan trọng.
Deepseek ban đầu tuyên bố đã đào tạo mạng lưới thần kinh Deepseek V3 mạnh mẽ của mình chỉ với 6 triệu đô la sử dụng GPU 2048. Tuy nhiên, Semianalysis cho thấy một cơ sở hạ tầng lớn hơn nhiều: khoảng 50.000 GPU phễu NVIDIA, bao gồm 10.000 H800, 10.000 H100 và H20 bổ sung, trải rộng trên nhiều trung tâm dữ liệu. Điều này thể hiện tổng đầu tư của máy chủ khoảng 1,6 tỷ đô la, với chi phí hoạt động ước tính khoảng 944 triệu đô la.

Deepseek, một công ty con của Quỹ phòng hộ Trung Quốc Flyer cao, sở hữu các trung tâm dữ liệu của mình, cung cấp quyền kiểm soát vô song đối với việc thực hiện tối ưu hóa và đổi mới. Cách tiếp cận tự tài trợ này thúc đẩy sự nhanh nhẹn và ra quyết định nhanh chóng. Công ty cũng thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm, chủ yếu từ các trường đại học Trung Quốc.

Yêu cầu chi phí đào tạo 6 triệu đô la ban đầu của Deepseek là sai lệch; Nó chỉ phản ánh việc sử dụng GPU trước khi đào tạo, không bao gồm nghiên cứu, tinh chỉnh, xử lý dữ liệu và cơ sở hạ tầng. Tổng đầu tư của công ty vào phát triển AI vượt quá 500 triệu đô la. Mặc dù đầu tư đáng kể này, cấu trúc nạc của nó cho phép thực hiện đổi mới hiệu quả.

Thành công của Deepseek thể hiện tiềm năng của các công ty AI độc lập được tài trợ tốt để cạnh tranh với các đại gia công nghiệp. Tuy nhiên, thành tích của nó là do hàng tỷ người đầu tư, đột phá kỹ thuật và một nhóm mạnh mẽ, không phải là một ngân sách cách mạng. Mặc dù vậy, chi phí của Deepseek vẫn thấp hơn đáng kể so với các đối thủ cạnh tranh. Ví dụ, Deepseek đã chi 5 triệu đô la cho R1, so với 100 triệu đô la của TATGPT cho TATGPT4O. Điều này nhấn mạnh lợi thế chi phí đáng kể, mặc dù các tuyên bố ban đầu tăng cao.