Kỹ thuật bị lãng quên 10 năm của Google khiến DeepSeek tận dụng vươn lên cướp việc của con người với giá rẻ mạt như thế nào?
17:29 10/03/2025
Từ một kỹ thuật bị coi thường vào năm 2015 của Google, DeepSeek đã tận dụng để ngày càng hoàn thiện hơn với chi phí đào tạo rẻ mạt.
Đầu năm 2025, việc Trung Quốc ra mắt DeepSeek đã khiến toàn thị trường xôn xao khi có mô hình cạnh tranh với OpenAI nhưng chi phí đào tạo lại chỉ khoảng 5 triệu USD. Thông tin này đã khiến thị trường hoảng loạn và tổng vốn hóa Nvidia bốc hơi 600 tỷ USD do lo ngại nhu cầu chip sẽ giảm.
Tờ Business Insider (BI) cho hay chi phí đào tạo các mô hình trí thông minh nhân tạo (AI) đang ngày càng giảm như kiểu DeepSeek là nhờ kỹ thuật "chắt lọc tri thức" (Knowledge Distillation).
Đây là một kỹ thuật học máy dùng để chuyển giao kiến thức từ một mô hình lớn, phức tạp (Teacher Model-mô hình giáo viên) sang một mô hình nhỏ gọn hơn, đơn giản hơn (Student Model-mô hình học sinh) mà vẫn cố gắng duy trì hiệu suất tương đương.
Thay vì huấn luyện mô hình nhỏ chỉ dựa trên dữ liệu gốc, quá trình này cho phép mô hình học sinh "học" từ các đầu ra của mô hình giáo viên, giúp tiết kiệm tài nguyên tính toán và thời gian suy luận, đồng thời phù hợp với việc triển khai trên các thiết bị có hiệu năng thấp hơn.
Điều này khiến thị trường khá lo lắng khi nhu cầu sử dụng chip của Nvidia sẽ giảm dần theo thời gian khi các mô hình AI sau này ngày càng hoàn thiện nhờ kỹ thuật chắt lọc tri thức.
Nghiên cứu vào tháng 1/2025 của một nhóm các nhà khoa học tại UC Berkeley cho thấy họ đã đào tạo được 2 mô hình AI mới với chi phí điện toán dưới 1.000 USD/mô hình.
Tương tự vào đầu tháng 2/2025, các nhà nghiên cứu từ Đại học Stanford, Đại học Washington và Viện Allen về AI đã có thể đào tạo một mô hình lý luận hữu ích với chi phí rất nhỏ.
Tất cả những thành quả này đều nhờ kỹ thuật chắt lọc tri thức.
10 năm lãng quên
Tờ BI nhận định kỹ thuật chắt lọc tri thức sẽ giúp những mô hình nền tảng chung như Llama của Meta xây dựng được các ứng dụng AI thông minh, ví dụ như trở thành một chuyên gia về luật thuế tại Mỹ với giá rẻ mạt.
Mô hình lý luận R1 của DeepSeek đã chắt lọc tri thức từ Llaman để có khả năng lý luận tốt hơn thay vì tốn quá nhiều thời gian và tài nguyên đào tạo để trả lời từng bước.
"Mô hình chắt lọc tri thức đó có quy mô nhỏ hơn, ít tham số hơn, ít bộ nhớ hơn. Bạn có thể chạy nó trên điện thoại của mình. Bạn có thể chạy nó trên các thiết bị biên", đối tác Samir Kumar tại Touring Capital giải thích.
Việc DeepSeek thu hẹp quy mô nhưng lại có khả năng suy luận tốt hơn là nguyên nhân chính khiến chúng trở nên nổi bật, được so sánh với OpenAI và làm xáo trộn thị trường.
Trên thực tế kỹ thuật chắt lọc tri thức này đã xuất hiện lần đầu tiên trong một bài báo năm 2015 do các giám đốc AI nổi tiếng của Google là Jeff Dean, Geoffrey Hinton và Phó chủ tịch nghiên cứu Google DeepMind hiện tại là Oriol Vinyals chấp bút.
Ban đầu, bài báo đã bị từ chối tại hội nghị NeurIPS danh giá vì nó không được coi là có nhiều tác động đến lĩnh vực này. Thế nhưng chỉ 10 năm sau, kỹ thuật này đột nhiên trở thành chủ đề thảo luận hàng đầu về AI.
Theo BI, điều khiến kỹ thuật chắt lọc tri thức bỗng trở nên mạnh mẽ như hiện nay là do số lượng cũng như chất lượng của các mô hình nguồn mở để sử dụng làm Teacher Model.
Nói đơn giản hơn, chính ChatGPT cùng hàng loạt những mô hình AI sau này đã tạo thành các Teacher Model hiệu quả, giúp thúc đẩy sự thành công của DeepSeek khi
Bên cạnh đó, giám đốc kỹ thuật Kate Soule của LLM Granite thuộc IBM nhận định việc tận dụng kỹ thuật này của DeepSeek còn được cho là mở toang cánh cửa cạnh tranh giữa các mô hình AI vốn được những tập đoàn lớn đóng kín.
Các công ty giờ đây sẽ buộc phải mở cửa mô hình AI của mình để chắt lọc tri thức lẫn nhau và đào tạo nên những mô hình giá rẻ nhằm chạy đua với DeepSeek.
Đi xa đến đâu?
Giám đốc Soule của IBM cho biết Hugging Face, kho lưu trữ LLM trên Internet, có đầy đủ các phiên bản chắt lọc tri thức của Llama của Meta và Qwen của Alibaba bởi cả hai đều là mô hình truyền thống nguồn mở.
Tuy nhiên theo các nhà nghiên cứu từ Apple, việc chắt lọc tri thức từ mô hình mẹ cũng yêu cầu phải có chất lượng cao mới cho ra được kết quả như ý. Thế nhưng điều này đồng nghĩa các công ty phải đổ tiền đầu tư cho những mô hình mẹ tốn kém, làm lợi cho những hãng đi sau tận dụng.
Giám đốc điều hành Nvidia Jensen Huang cho biết hầu như mọi nhà phát triển AI trên thế giới hiện nay đang sử dụng R-1 của DeepSeek để chắt lọc tri thức các mô hình mới.
Mặc dù vậy, việc chỉ dựa vào R1 là có giới hạn.
"Tôi nghĩ các mô hình chắt lọc tri thức sẽ ngày càng trở nên phổ biến hơn. Tuy nhiên có một giới hạn mà các mô hình này có thể đạt được nếu chỉ dựa vào 1 mô hình mẹ, và chúng ta đang ngày càng tiến gần hơn đến giới hạn đó", nhà đồng sáng lập Jasper Zhang của nền tảng đám mây Hyperbolic cho biết.
Một chuyên gia giấu tên của Google Deepmind nói với BI rằng thậm chí nhiều nền tảng đang cố gắng giảm bớt, loại bỏ các dấu vết chắt lọc tri thức để hạn chế việc bị sao chép kỹ thuật này.
Ví dụ OpenAI ẩn toàn bộ đường dẫn lý luận trong mô hình lý luận o1 của mình, dù vẫn hiển thị thông tin trong phiên bản o3-mini nhỏ hơn.
"Một trong những điều bạn sẽ thấy trong vài tháng tới là các công ty AI hàng đầu sẽ cố gắng ngăn chặn sự sao chép chắt lọc tri thức từ đối thủ", cố vấn David Sacks về chính sách tiền điện tử và trí tuệ nhân tạo (AI) của Tổng thống Donald Trump nói với Fox News vào tháng 1/2025.
Mặc dù vậy tờ BI nhận định sẽ rất khó để kiềm chế xu thế này khi thành công của DeepSeek đã mở ra một hướng đi mới cho AI mã nguồn mở.
Ưu tiên hàng đầu của các nhà hoạch định chính sách Trung Quốc hiện nay là đối phó với mối đe dọa thuế quan từ Mỹ, không phải khắc phục tình trạng giảm phát.
Các máy bay chiến đấu của Không quân Mỹ chặn một máy bay dân sự bay vào vùng không phận bị hạn chế gần khu biệt thự Mar-a-Lago ở Florida của Tổng thống Donald Trump, nâng tổng số vụ vi phạm lên hơn 20 kể từ khi nhà lãnh đạo này nhậm chức ngày 20/1.
Những diễn biến nhanh chóng về tình hình ở Ukraine và Châu Âu chắc chắn sẽ tiếp tục là tâm điểm chú ý của thị trường tài chính trong tuần tới, cùng với các dữ liệu kinh tế Mỹ (trong đó chỉ số lạm phát – một dữ liệu đặc biệt quan trọng).
Siêu dự án Neom được kỳ vọng trở thành cuộc cách mạng văn minh và kinh tế, đưa Saudi Arabia thoát phụ thuộc vào dầu mỏ. Song, tham vọng này đang mắc kẹt giữa khát vọng và thực tế khắ nghiệt.
Theo các nguồn tin, không có dấu hiệu nào cho thấy Đức muốn vi phạm quy định kiểm soát xuất khẩu của EU, vốn cấm các thành viên bán vũ khí để hỗ trợ lực lượng quân sự Trung Quốc.
"Lực lượng Nga giương cao quốc kỳ, các nhóm quân Ukraine đã đầu hàng" - Phóng viên Poddubny đưa tin. Truyền thông Nga đồng thời công bố cận cảnh hình ảnh binh sĩ Ukraine ra hàng.
Năm 2024 khép lại với biến cố chưa từng có tại VNDirect khi hệ thống bị tấn công mạng, nhưng cũng là năm đánh dấu sự trưởng thành sau 18 năm phát triển. Chủ tịch Phạm Minh Hương gọi đây là “phép thử bản lĩnh” và động lực tái cấu trúc toàn diện.
Trung Quốc đã cắt giảm mạnh việc nhập khẩu nhiều mặt hàng từ Mỹ trong tháng trước, thậm chí một số mặt hàng giảm về mức 0, trong bối cảnh cuộc chiến thương mại giữa hai nền kinh tế lớn nhất thế giới tiếp tục leo thang.
(ĐTCK) Các doanh nghiệp tiếp tục công bố kết quả kinh doanh quý I/2025 trong tuần này và do đó dòng tiền sẽ phân hóa hơn khi tìm đến các nhóm ngành có triển vọng và kết quả cao.
(ĐTCK) Ở khung đồ thị giờ, chỉ báo MACD và RSI có tín hiệu hình thành phân kỳ âm, tuy nhiên chưa có sự đồng thuận với khung ngày nên phần nào giảm thiểu rủi ro biến động mạnh.
(ĐTCK) Trái với giao dịch nhà đầu tư trong nước, khối ngoại đã giải ngân mạnh cổ phiếu lớn FPT và VIC, đồng thời mua ròng khá tích cực gần 170 tỷ đồng trong phiên giảm điểm ngày 21/4.
Việc Tổng thống Donald Trump đòi sa thải Chủ tịch Fed Jerome Powell là lý do mới nhất khiến các nhà đầu tư bán tài sản Mỹ, bao gồm cả đồng USD hùng mạnh.
Cảnh báo rủi ro
Mọi ý kiến, tin tức, nghiên cứu, phân tích, giá cả hoặc thông tin khác có trên trang web này được cung cấp dưới dạng bình luận thị trường chung và không phải lời khuyên đầu tư.
Nội dung trên trang web này có thể thay đổi bất kỳ lúc nào mà không cần thông báo, và được cung cấp với mục đích duy nhất là hỗ trợ các nhà giao dịch đưa ra quyết định đầu tư độc lập.
Liên kết đến các trang web của bên thứ ba được cung cấp để thuận tiện cho bạn. Các trang web như vậy không nằm trong tầm kiểm soát của chúng tôi và có thể không tuân theo cùng các tiêu chuẩn về quyền riêng tư, bảo mật hoặc khả năng truy cập như của chúng tôi.
Bạn nên biết tất cả các rủi ro liên quan đến giao dịch tài chính, chứng khoán hay tiền mã hoá và tìm kiếm lời khuyên từ một cố vấn độc lập nếu bạn có bất kỳ nghi ngờ nào.
Bạn không nên chia sẻ nội dung trên trang web với người không đủ hiểu biết về thị trường tài chính.
Trang web đang được vận hành thử nghiệm nội bộ, không sử dụng vào mục đích thương mại.