Với việc cấp phép sử dụng miễn phí cho mục đích thương mại, mô h́nh AI mới của DeepSeek là cơn ác mộng thực sự đối với OpenAI.
Trong một động thái bất ngờ, công ty khởi nghiệp AI Trung Quốc DeepSeek vừa lặng lẽ phát hành mô h́nh ngôn ngữ lớn mới có tên DeepSeek-V3-0324 trên nền tảng Hugging Face.
Sự xuất hiện của mô h́nh 641Gb này đang tạo ra làn sóng chấn động trong ngành công nghiệp trí tuệ nhân tạo không chỉ v́ khả năng ấn tượng mà c̣n bởi cách thức triển khai độc đáo, theo đúng phong cách "âm thầm nhưng có tác động lớn" đặc trưng của DeepSeek.
Điểm nổi bật nhất trong lần ra mắt này chính là việc mô h́nh được phát hành dưới giấy phép MIT, cho phép sử dụng miễn phí cho mục đích thương mại. Điều đáng chú ư nhất là theo những báo cáo ban đầu, DeepSeek-V3-0324 có thể chạy trực tiếp trên phần cứng tiêu dùng cao cấp như Apple Mac Studio với chip M3 Ultra.
Theo nhà nghiên cứu AI Awni Hannun, "DeepSeek-V3-0324 mới trong phiên bản 4-bit chạy ở tốc độ trên 20 token/giây trên M3 Ultra 512GB với mlx-lm!" Mặc dù với mức giá 9.499 USD, Mac Studio có thể vượt ra ngoài định nghĩa thông thường về "phần cứng tiêu dùng", nhưng khả năng chạy một mô h́nh khổng lồ cục bộ như vậy đánh dấu một bước ngoặt quan trọng, tách biệt với yêu cầu trung tâm dữ liệu thường gắn liền với AI tiên tiến.
Về mặt công nghệ, DeepSeek đă tạo ra một số đột phá đáng kể trong mô h́nh mới này. Thay v́ theo đuổi phương pháp truyền thống, DeepSeek-V3-0324 áp dụng kiến trúc "mixture-of-experts" (MoE) vô cùng sáng tạo, tái định nghĩa cách thức hoạt động của các mô h́nh ngôn ngữ lớn.
Trong khi các mô h́nh AI thông thường kích hoạt toàn bộ tham số cho mọi tác vụ, cách tiếp cận của DeepSeek chỉ sử dụng khoảng 37 tỷ trong tổng số 685 tỷ tham số của nó cho từng tác vụ cụ thể. Sự kích hoạt có chọn lọc này đại diện cho một bước đột phá về hiệu quả mô h́nh, cho phép đạt được hiệu suất tương đương với các mô h́nh lớn hơn nhiều trong khi giảm đáng kể yêu cầu tính toán.
Không dừng lại ở đó, mô h́nh này c̣n tích hợp hai công nghệ đột phá khác: Multi-Head Latent Attention (MLA) và Multi-Token Prediction (MTP). MLA nâng cao khả năng duy tŕ ngữ cảnh của mô h́nh trong các đoạn văn bản dài, giúp AI hiểu sâu hơn về nội dung được xử lư.
Trong khi đó, MTP cho phép mô h́nh tạo ra nhiều token mỗi bước thay v́ phải tiến hành từng token một như phương pháp truyền thống. Kết hợp lại, những đổi mới này đă tăng tốc độ đầu ra lên gần 80%, đạt được hiệu suất đáng kinh ngạc ngay cả trên phần cứng tiêu dùng.
Nhờ những đột phá này, DeepSeek-V3-0324 đang nhanh chóng được xem là một cơn ác mộng kinh hoàng đối với OpenAI v́ nhiều lư do. Trước hết, mô h́nh này thách thức trực tiếp mô h́nh kinh doanh độc quyền của OpenAI.
Trong khi OpenAI giữ các mô h́nh của ḿnh sau hàng rào trả phí, DeepSeek lại cung cấp công nghệ tương đương hoàn toàn miễn phí với giấy phép nguồn mở. Hơn thế nữa, khả năng chạy trên phần cứng tiêu dùng cao cấp đe dọa đến mô h́nh dịch vụ đám mây của OpenAI. Nếu người dùng có thể chạy AI tiên tiến cục bộ trên máy tính của họ, nhu cầu đối với các API trả phí sẽ giảm đáng kể.
Đáng chú ư hơn, thời điểm và đặc điểm của DeepSeek-V3-0324 cho thấy mạnh mẽ rằng nó sẽ đóng vai tṛ là nền tảng cho DeepSeek-R2, một mô h́nh tập trung vào lập luận được cải tiến dự kiến ra mắt trong hai tháng tới. Điều này tuân theo mô h́nh đă được thiết lập của DeepSeek, nơi các mô h́nh cơ sở thường đi trước các mô h́nh lập luận chuyên biệt vài tuần.
Nếu DeepSeek-R2 đi theo quỹ đạo được thiết lập bởi R1, nó có thể thách thức trực tiếp GPT-5, mô h́nh hàng đầu tiếp theo của OpenAI được đồn đoán sẽ phát hành trong những tháng tới. Sự tương phản giữa cách tiếp cận đóng, được tài trợ mạnh mẽ của OpenAI và chiến lược mở, hiệu quả về tài nguyên của DeepSeek đại diện cho hai tầm nh́n cạnh tranh hoàn toàn khác biệt về tương lai của AI.
Điều quan trọng hơn cả, cách tiếp cận của DeepSeek đối với phát triển và phân phối AI không chỉ đơn thuần là một thành tựu kỹ thuật mà c̣n thể hiện một tầm nh́n cơ bản khác biệt về cách công nghệ tiên tiến nên lan truyền trong xă hội. Bằng cách cung cấp AI tiên tiến miễn phí theo cấp phép cho phép, DeepSeek đang thúc đẩy sự đổi mới theo cấp số nhân mà các mô h́nh đóng vốn có hạn chế.
Chiến lược này đang nhanh chóng thu hẹp khoảng cách AI được nhận định giữa Trung Quốc và Mỹ. Trong khi chỉ vài tháng trước, hầu hết các nhà phân tích ước tính Trung Quốc tụt hậu 1-2 năm so với khả năng AI của Mỹ, th́ ngày nay, khoảng cách đó đă thu hẹp đáng kể xuống c̣n khoảng 3-6 tháng, với một số lĩnh vực thậm chí đang tiếp cận mức ngang bằng hoặc dẫn đầu.
T́nh h́nh này gợi nhớ đến tác động của Android đối với hệ sinh thái di động nhiều năm trước. Quyết định của Google làm cho Android có sẵn miễn phí đă tạo ra một nền tảng cuối cùng đạt được thị phần toàn cầu thống trị. Tương tự như vậy, các mô h́nh AI nguồn mở như DeepSeek-V3-0324 có thể sẽ cạnh tranh thành công với các hệ thống đóng nhờ vào sự phổ biến rộng răi và sức mạnh đổi mới tập thể từ hàng ngh́n nhà phát triển trên toàn cầu.
Khi DeepSeek-V3-0324 bắt đầu xuất hiện trong các pḥng thí nghiệm nghiên cứu và máy trạm nhà phát triển trên toàn thế giới, cuộc cạnh tranh không c̣n đơn thuần là về việc ai có thể xây dựng AI mạnh mẽ nhất, mà đă chuyển sang việc ai có thể trao quyền cho nhiều người nhất để xây dựng với AI. Trong bối cảnh này, sự phát hành lặng lẽ nhưng đầy ấn tượng của DeepSeek đă nói lên rất nhiều điều về tương lai của trí tuệ nhân tạo. Có lẽ, công ty chia sẻ công nghệ của ḿnh một cách tự do nhất cuối cùng sẽ là người nắm giữ ảnh hưởng lớn nhất đối với cách AI định h́nh lại thế giới của chúng ta trong những năm sắp tới.
VietBF@ Sưu tập