Chiếc chén thánh của Crypto AI: Khám phá tiên tiến về đào tạo Phi tập trung
Đào tạo AI là giai đoạn quan trọng nhất trong toàn bộ chuỗi giá trị AI, quyết định trực tiếp giới hạn khả năng của mô hình và hiệu quả ứng dụng. So với việc gọi suy luận nhẹ, quá trình đào tạo cần phải đầu tư vào sức mạnh tính toán quy mô lớn liên tục, quy trình xử lý dữ liệu phức tạp và hỗ trợ thuật toán tối ưu hóa cường độ cao, là "ngành công nghiệp nặng" thực sự trong việc xây dựng hệ thống AI. Từ góc độ mô hình kiến trúc, phương pháp đào tạo có thể được chia thành bốn loại: đào tạo tập trung, đào tạo phân tán, học liên bang và đào tạo phi tập trung mà bài viết này sẽ thảo luận trọng tâm.
Huấn luyện tập trung là cách truyền thống nhất, được thực hiện bởi một tổ chức duy nhất trong cụm hiệu suất cao tại chỗ, toàn bộ quy trình huấn luyện từ phần cứng đến phần mềm đều được hệ thống kiểm soát thống nhất phối hợp vận hành. Kiến trúc phối hợp chặt chẽ này giúp hiệu suất huấn luyện đạt tối ưu, rất phù hợp cho việc huấn luyện các mô hình quy mô lớn như GPT, Gemini, với những lợi thế về hiệu suất cao và tài nguyên có thể kiểm soát, nhưng đồng thời cũng tồn tại các vấn đề như độc quyền dữ liệu, rào cản tài nguyên, tiêu thụ năng lượng và rủi ro điểm đơn.
Huấn luyện phân tán là phương pháp chính để huấn luyện các mô hình lớn hiện nay, cốt lõi của nó là phân chia nhiệm vụ huấn luyện mô hình và phân phối đến nhiều máy tính để thực hiện đồng bộ, nhằm vượt qua các nút thắt về tính toán và lưu trữ của máy đơn. Mặc dù về mặt vật lý có đặc điểm "phân tán", nhưng tổng thể vẫn bị kiểm soát và điều phối bởi các tổ chức tập trung, thường hoạt động trong môi trường mạng cục bộ tốc độ cao, thông qua công nghệ bus liên kết tốc độ cao NVLink, do nút chính điều phối đồng bộ các nhiệm vụ con. Các phương pháp chính bao gồm song song dữ liệu, song song mô hình, song song ống dẫn và song song tensor. Huấn luyện phân tán là sự kết hợp của "kiểm soát tập trung + thực hiện phân tán", tương tự như việc một ông chủ điều phối từ xa nhiều nhân viên "văn phòng" hợp tác hoàn thành nhiệm vụ. Hiện tại, gần như tất cả các mô hình lớn chính đều hoàn thành huấn luyện theo cách này.
Phi tập trung đào tạo thì đại diện cho con đường tương lai có tính mở hơn và khả năng chống kiểm duyệt. Đặc điểm cốt lõi của nó là: nhiều nút không tin cậy lẫn nhau hợp tác hoàn thành nhiệm vụ đào tạo mà không cần có điều phối viên trung tâm, thường thông qua các giao thức để thúc đẩy việc phân phối và hợp tác nhiệm vụ, và nhờ vào cơ chế khuyến khích mã hóa để đảm bảo tính trung thực của sự đóng góp. Những thách thức chính mà mô hình này phải đối mặt bao gồm sự không đồng nhất của thiết bị và khó khăn trong việc phân chia, điểm nghẽn hiệu suất truyền thông, thiếu khả năng thực thi đáng tin cậy, và thiếu sự điều phối thống nhất. Phi tập trung đào tạo có thể hiểu là: một nhóm tình nguyện viên toàn cầu, mỗi người đóng góp sức mạnh tính toán để hợp tác đào tạo mô hình, nhưng "đào tạo phi tập trung quy mô lớn thực sự khả thi" vẫn là một thách thức kỹ thuật hệ thống, bao gồm kiến trúc hệ thống, giao thức truyền thông, an ninh mã hóa, cơ chế kinh tế, xác thực mô hình và nhiều khía cạnh khác. Liệu có thể "hợp tác hiệu quả + khuyến khích trung thực + kết quả chính xác" vẫn đang ở giai đoạn khám phá nguyên mẫu ban đầu.
Học liên bang, như một hình thức chuyển tiếp giữa phân tán và Phi tập trung, nhấn mạnh việc giữ dữ liệu tại chỗ, tập hợp các tham số mô hình, phù hợp với các tình huống chú trọng đến tuân thủ quyền riêng tư. Học liên bang có cấu trúc kỹ thuật của đào tạo phân tán và khả năng hợp tác cục bộ, đồng thời có ưu điểm phân tán dữ liệu của đào tạo Phi tập trung, nhưng vẫn phụ thuộc vào các bên phối hợp đáng tin cậy, không có đặc tính hoàn toàn mở và kháng kiểm duyệt. Nó có thể được coi là một giải pháp "Phi tập trung có kiểm soát" trong các tình huống tuân thủ quyền riêng tư, với các nhiệm vụ đào tạo, cấu trúc tin cậy và cơ chế giao tiếp đều tương đối ôn hòa, phù hợp hơn để làm kiến trúc triển khai chuyển tiếp trong ngành công nghiệp.
Từ góc độ mô hình đào tạo, đào tạo phi tập trung không phù hợp với tất cả các loại nhiệm vụ. Trong một số tình huống, do cấu trúc nhiệm vụ phức tạp, yêu cầu tài nguyên cực kỳ cao hoặc độ khó trong hợp tác, nó tự nhiên không phù hợp để hoàn thành hiệu quả giữa các nút không đồng nhất và không cần tin cậy. Ví dụ, đào tạo mô hình lớn thường phụ thuộc vào bộ nhớ cao, độ trễ thấp và băng thông cao, khó có thể phân chia và đồng bộ hiệu quả trong mạng mở; nhiệm vụ có quyền riêng tư dữ liệu và hạn chế chủ quyền mạnh bị giới hạn bởi tuân thủ pháp lý và ràng buộc đạo đức, không thể chia sẻ mở; trong khi nhiệm vụ thiếu nền tảng động lực hợp tác thì thiếu động lực tham gia bên ngoài. Những ranh giới này cùng nhau cấu thành những giới hạn thực tế của đào tạo phi tập trung hiện tại.
Nhưng điều này không có nghĩa là đào tạo phi tập trung là một đề xuất sai. Trên thực tế, trong các loại nhiệm vụ nhẹ cấu trúc, dễ song song và có thể khuyến khích, đào tạo phi tập trung thể hiện rõ triển vọng ứng dụng. Bao gồm nhưng không giới hạn: Tinh chỉnh LoRA, các nhiệm vụ huấn luyện sau hành vi, nhiệm vụ huấn luyện và gán nhãn dữ liệu theo hình thức crowdsourcing, đào tạo mô hình cơ bản nhỏ có thể kiểm soát tài nguyên, cũng như các tình huống đào tạo hợp tác có sự tham gia của thiết bị biên. Các nhiệm vụ này thường có tính song song cao, độ kết nối thấp và khả năng chịu đựng sức mạnh tính toán không đồng nhất, rất phù hợp để thực hiện đào tạo hợp tác thông qua mạng P2P, giao thức Swarm, bộ tối ưu phân tán và các phương pháp khác.
Hiện tại, trong lĩnh vực đào tạo phi tập trung và học tập liên bang, các dự án blockchain tiêu biểu bao gồm Prime Intellect, Pluralis.ai, Gensyn, Nous Research và Flock.io. Xét về tính đổi mới công nghệ và độ khó trong việc triển khai kỹ thuật, Prime Intellect, Nous Research và Pluralis.ai đã đưa ra nhiều khám phá sáng tạo trong thiết kế hệ thống và thuật toán, đại diện cho hướng nghiên cứu lý thuyết hiện tại; trong khi đó, con đường thực hiện của Gensyn và Flock.io tương đối rõ ràng, đã có thể thấy được tiến triển ban đầu trong việc hiện thực hóa.
Prime Intellect cam kết xây dựng một mạng lưới đào tạo AI không cần tín nhiệm, cho phép bất kỳ ai tham gia đào tạo và nhận phần thưởng đáng tin cậy cho những đóng góp tính toán của họ. Prime Intellect hy vọng thông qua ba mô-đun PRIME-RL + TOPLOC + SHARDCAST, xây dựng một hệ thống đào tạo AI Phi tập trung có khả năng xác minh, tính mở và cơ chế khuyến khích đầy đủ.
PRIME-RL là khuôn khổ mô hình hóa và thực thi nhiệm vụ được Prime Intellect tùy chỉnh cho các kịch bản đào tạo Phi tập trung, được thiết kế đặc biệt cho mạng lưới dị thể và sự tham gia bất đồng bộ. Nó sử dụng học tăng cường như đối tượng ưu tiên thích ứng, tách biệt cấu trúc quá trình đào tạo, suy diễn và tải trọng lên, cho phép mỗi nút đào tạo hoàn thành chu trình nhiệm vụ độc lập tại địa phương, và phối hợp với cơ chế xác thực và tổng hợp thông qua giao diện tiêu chuẩn hóa. So với quy trình học giám sát truyền thống, PRIME-RL phù hợp hơn để thực hiện đào tạo linh hoạt trong môi trường không có điều độ trung tâm, vừa giảm độ phức tạp của hệ thống, vừa đặt nền tảng cho việc hỗ trợ nhiều nhiệm vụ song song và tiến hóa chiến lược.
TOPLOC là cơ chế cốt lõi có thể xác minh được do Prime Intellect đề xuất, dùng để xác định xem một nút có thực sự hoàn thành việc học chiến lược hiệu quả dựa trên dữ liệu quan sát hay không. Khác với các giải pháp nặng như ZKML, TOPLOC không phụ thuộc vào việc tính toán lại toàn bộ mô hình, mà hoàn thành việc xác minh cấu trúc nhẹ thông qua việc phân tích quỹ đạo nhất quán cục bộ giữa "chuỗi quan sát↔cập nhật chiến lược". Đây là lần đầu tiên hành vi quỹ đạo trong quá trình huấn luyện được chuyển đổi thành đối tượng có thể xác minh, là đổi mới then chốt để thực hiện phân phối phần thưởng huấn luyện mà không cần tin cậy, cung cấp con đường khả thi cho việc xây dựng mạng lưới huấn luyện hợp tác phi tập trung có thể kiểm toán và có thể khuyến khích.
SHARDCAST là giao thức phân phối và tổng hợp trọng số được thiết kế bởi Prime Intellect, được tối ưu hóa đặc biệt cho môi trường mạng thực tế với tính bất đồng bộ, băng thông hạn chế và trạng thái nút thay đổi. Nó kết hợp cơ chế truyền tin gossip và chiến lược đồng bộ cục bộ, cho phép nhiều nút liên tục gửi các cập nhật một phần trong trạng thái không đồng bộ, đạt được sự hội tụ dần dần của trọng số và sự tiến hóa phiên bản đa dạng. So với các phương pháp AllReduce tập trung hoặc đồng bộ, SHARDCAST cải thiện đáng kể khả năng mở rộng và khả năng chịu lỗi của việc huấn luyện Phi tập trung, là nền tảng cốt lõi để xây dựng sự đồng thuận trọng số ổn định và tiếp tục các vòng huấn luyện.
OpenDiLoCo là một khung tối ưu hóa truyền thông được nhóm Prime Intellect độc lập hiện thực hóa và mã nguồn mở dựa trên khái niệm DiLoCo mà DeepMind đã đưa ra, được thiết kế đặc biệt cho những thách thức phổ biến trong đào tạo phi tập trung như băng thông hạn chế, thiết bị không đồng nhất và nút không ổn định. Kiến trúc của nó dựa trên sự song song dữ liệu, thông qua việc xây dựng các cấu trúc topo thưa như Ring, Expander và Small-World, đã tránh được chi phí truyền thông cao của đồng bộ toàn cầu, chỉ phụ thuộc vào các nút hàng xóm cục bộ để hoàn thành việc đào tạo hợp tác mô hình. Kết hợp cập nhật không đồng bộ và cơ chế chịu lỗi điểm dừng, OpenDiLoCo cho phép GPU tiêu dùng và thiết bị biên cũng có thể tham gia ổn định vào các nhiệm vụ đào tạo, nâng cao đáng kể khả năng tham gia vào đào tạo hợp tác toàn cầu, là một trong những cơ sở hạ tầng truyền thông quan trọng để xây dựng mạng lưới đào tạo phi tập trung.
PCCL là thư viện truyền thông nhẹ được Prime Intellect thiết kế riêng cho môi trường đào tạo AI Phi tập trung, nhằm giải quyết những nút thắt trong việc thích ứng của các thư viện truyền thông truyền thống trong các thiết bị dị thể và mạng lưới băng thông thấp. PCCL hỗ trợ cấu trúc thưa, nén độ dốc, đồng bộ độ chính xác thấp và khôi phục điểm dừng, có thể chạy trên GPU tiêu dùng và các nút không ổn định, là thành phần hỗ trợ khả năng truyền thông bất đồng bộ của giao thức OpenDiLoCo. Nó nâng cao đáng kể khả năng chịu băng thông của mạng đào tạo và tính tương thích của thiết bị, mở ra "cây cầu cuối cùng" cho cơ sở hạ tầng truyền thông trong việc xây dựng mạng đào tạo hợp tác thực sự mở và không cần tin cậy.
Prime Intellect xây dựng một mạng lưới đào tạo không cần cấp phép, có thể xác minh và có cơ chế khuyến khích kinh tế, cho phép bất kỳ ai tham gia vào nhiệm vụ và nhận phần thưởng dựa trên đóng góp thực tế. Giao thức hoạt động dựa trên ba loại vai trò cốt lõi: người khởi tạo nhiệm vụ, nút đào tạo và nút xác minh. Quy trình cốt lõi của giao thức bao gồm phát hành nhiệm vụ, đào tạo nút, xác minh quỹ đạo, tổng hợp trọng số và phát phần thưởng, tạo thành một vòng khuyến khích xoay quanh "hành vi đào tạo thực tế".
Prime Intellect đã phát hành INTELLECT-2 vào tháng 5 năm 2025, đây là mô hình học tăng cường lớn đầu tiên trên thế giới được đào tạo thông qua sự hợp tác của các nút phi tập trung không cần tin cậy và bất đồng bộ, với quy mô tham số đạt 32B. Mô hình INTELLECT-2 được hoàn thành thông qua sự hợp tác đào tạo của hơn 100 nút GPU dị thể trải khắp ba châu lục, sử dụng kiến trúc hoàn toàn bất đồng bộ, thời gian đào tạo vượt quá 400 giờ, chứng minh tính khả thi và ổn định của mạng lưới hợp tác bất đồng bộ. Mô hình này không chỉ là một bước đột phá về hiệu suất, mà còn là sự hiện thực hóa hệ thống đầu tiên của mô hình "đào tạo chính là đồng thuận" mà Prime Intellect đã đưa ra. INTELLECT-2 tích hợp các mô-đun giao thức cốt lõi như PRIME-RL, TOPLOC và SHARDCAST, đánh dấu lần đầu tiên mạng lưới đào tạo phi tập trung thực hiện được quá trình đào tạo một cách mở, kiểm chứng và chu trình khuyến khích kinh tế.
Về hiệu suất, INTELLECT-2 dựa trên QwQ-32B được đào tạo và đã thực hiện đào tạo RL chuyên biệt về mã và toán học, nằm ở đỉnh cao của các mô hình RL tinh chỉnh mã nguồn mở hiện tại. Mặc dù chưa vượt qua các mô hình đóng như GPT-4 hoặc Gemini, nhưng ý nghĩa thực sự của nó là: đây là thí nghiệm mô hình phi tập trung đầu tiên trên thế giới có quy trình đào tạo hoàn chỉnh có thể tái tạo, xác minh và kiểm toán. Prime Intellect không chỉ mở mã mô hình mà quan trọng hơn là mở quy trình đào tạo - dữ liệu đào tạo, lộ trình cập nhật chiến lược, quy trình xác minh và logic tổng hợp đều minh bạch và có thể kiểm tra, xây dựng một nguyên mẫu mạng lưới đào tạo phi tập trung mà mọi người có thể tham gia, hợp tác đáng tin cậy và chia sẻ lợi ích.
Pluralis là một dự án Web3 AI tập trung vào "mạng lưới đào tạo hợp tác đáng tin cậy", với mục tiêu cốt lõi là thúc đẩy một mô hình đào tạo được Phi tập trung, tham gia mở và có cơ chế khuyến khích lâu dài. Khác với các con đường đào tạo tập trung hoặc đóng kín hiện nay, Pluralis đưa ra một khái niệm hoàn toàn mới mang tên Học giao thức: "hợp đồng hóa" quá trình đào tạo mô hình, thông qua cơ chế hợp tác có thể xác minh và ánh xạ quyền sở hữu mô hình, xây dựng một hệ thống đào tạo mở có vòng khuyến khích nội sinh.
Protocol Learning mà Pluralis đưa ra bao gồm ba trụ cột chính:
Mô hình không thể trích xuất: Mô hình được phân phối dưới dạng mảnh giữa nhiều nút, không có nút đơn nào có thể khôi phục trọng số hoàn chỉnh giữ kín mã. Thiết kế này khiến mô hình trở thành "tài sản trong giao thức", có thể thực hiện kiểm soát chứng chỉ truy cập, bảo vệ rò rỉ và gắn kết quyền lợi.
Huấn luyện mô hình song song dựa trên Internet: Thông qua cơ chế song song Pipeline bất đồng bộ, các nút khác nhau chỉ nắm giữ một phần trọng số, hợp tác hoàn thành việc huấn luyện hoặc suy diễn thông qua mạng lưới băng thông thấp.
Phân phối quyền sở hữu theo mô hình đóng góp: Tất cả các nút tham gia nhận được quyền sở hữu một phần của mô hình dựa trên đóng góp đào tạo của họ, từ đó hưởng lợi từ việc chia sẻ lợi nhuận trong tương lai và quyền quản trị giao thức.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
7 thích
Phần thưởng
7
6
Chia sẻ
Bình luận
0/400
SurvivorshipBias
· 07-07 18:20
Chỉ có hai chữ: Thổi phồng!
Xem bản gốcTrả lời0
EthSandwichHero
· 07-05 01:58
Sự thông minh không ổn định, hãy để dữ liệu lên tiếng!
Khám phá tương lai AI: Công nghệ và thách thức tiên tiến trong đào tạo phi tập trung
Chiếc chén thánh của Crypto AI: Khám phá tiên tiến về đào tạo Phi tập trung
Đào tạo AI là giai đoạn quan trọng nhất trong toàn bộ chuỗi giá trị AI, quyết định trực tiếp giới hạn khả năng của mô hình và hiệu quả ứng dụng. So với việc gọi suy luận nhẹ, quá trình đào tạo cần phải đầu tư vào sức mạnh tính toán quy mô lớn liên tục, quy trình xử lý dữ liệu phức tạp và hỗ trợ thuật toán tối ưu hóa cường độ cao, là "ngành công nghiệp nặng" thực sự trong việc xây dựng hệ thống AI. Từ góc độ mô hình kiến trúc, phương pháp đào tạo có thể được chia thành bốn loại: đào tạo tập trung, đào tạo phân tán, học liên bang và đào tạo phi tập trung mà bài viết này sẽ thảo luận trọng tâm.
Huấn luyện tập trung là cách truyền thống nhất, được thực hiện bởi một tổ chức duy nhất trong cụm hiệu suất cao tại chỗ, toàn bộ quy trình huấn luyện từ phần cứng đến phần mềm đều được hệ thống kiểm soát thống nhất phối hợp vận hành. Kiến trúc phối hợp chặt chẽ này giúp hiệu suất huấn luyện đạt tối ưu, rất phù hợp cho việc huấn luyện các mô hình quy mô lớn như GPT, Gemini, với những lợi thế về hiệu suất cao và tài nguyên có thể kiểm soát, nhưng đồng thời cũng tồn tại các vấn đề như độc quyền dữ liệu, rào cản tài nguyên, tiêu thụ năng lượng và rủi ro điểm đơn.
Huấn luyện phân tán là phương pháp chính để huấn luyện các mô hình lớn hiện nay, cốt lõi của nó là phân chia nhiệm vụ huấn luyện mô hình và phân phối đến nhiều máy tính để thực hiện đồng bộ, nhằm vượt qua các nút thắt về tính toán và lưu trữ của máy đơn. Mặc dù về mặt vật lý có đặc điểm "phân tán", nhưng tổng thể vẫn bị kiểm soát và điều phối bởi các tổ chức tập trung, thường hoạt động trong môi trường mạng cục bộ tốc độ cao, thông qua công nghệ bus liên kết tốc độ cao NVLink, do nút chính điều phối đồng bộ các nhiệm vụ con. Các phương pháp chính bao gồm song song dữ liệu, song song mô hình, song song ống dẫn và song song tensor. Huấn luyện phân tán là sự kết hợp của "kiểm soát tập trung + thực hiện phân tán", tương tự như việc một ông chủ điều phối từ xa nhiều nhân viên "văn phòng" hợp tác hoàn thành nhiệm vụ. Hiện tại, gần như tất cả các mô hình lớn chính đều hoàn thành huấn luyện theo cách này.
Phi tập trung đào tạo thì đại diện cho con đường tương lai có tính mở hơn và khả năng chống kiểm duyệt. Đặc điểm cốt lõi của nó là: nhiều nút không tin cậy lẫn nhau hợp tác hoàn thành nhiệm vụ đào tạo mà không cần có điều phối viên trung tâm, thường thông qua các giao thức để thúc đẩy việc phân phối và hợp tác nhiệm vụ, và nhờ vào cơ chế khuyến khích mã hóa để đảm bảo tính trung thực của sự đóng góp. Những thách thức chính mà mô hình này phải đối mặt bao gồm sự không đồng nhất của thiết bị và khó khăn trong việc phân chia, điểm nghẽn hiệu suất truyền thông, thiếu khả năng thực thi đáng tin cậy, và thiếu sự điều phối thống nhất. Phi tập trung đào tạo có thể hiểu là: một nhóm tình nguyện viên toàn cầu, mỗi người đóng góp sức mạnh tính toán để hợp tác đào tạo mô hình, nhưng "đào tạo phi tập trung quy mô lớn thực sự khả thi" vẫn là một thách thức kỹ thuật hệ thống, bao gồm kiến trúc hệ thống, giao thức truyền thông, an ninh mã hóa, cơ chế kinh tế, xác thực mô hình và nhiều khía cạnh khác. Liệu có thể "hợp tác hiệu quả + khuyến khích trung thực + kết quả chính xác" vẫn đang ở giai đoạn khám phá nguyên mẫu ban đầu.
Học liên bang, như một hình thức chuyển tiếp giữa phân tán và Phi tập trung, nhấn mạnh việc giữ dữ liệu tại chỗ, tập hợp các tham số mô hình, phù hợp với các tình huống chú trọng đến tuân thủ quyền riêng tư. Học liên bang có cấu trúc kỹ thuật của đào tạo phân tán và khả năng hợp tác cục bộ, đồng thời có ưu điểm phân tán dữ liệu của đào tạo Phi tập trung, nhưng vẫn phụ thuộc vào các bên phối hợp đáng tin cậy, không có đặc tính hoàn toàn mở và kháng kiểm duyệt. Nó có thể được coi là một giải pháp "Phi tập trung có kiểm soát" trong các tình huống tuân thủ quyền riêng tư, với các nhiệm vụ đào tạo, cấu trúc tin cậy và cơ chế giao tiếp đều tương đối ôn hòa, phù hợp hơn để làm kiến trúc triển khai chuyển tiếp trong ngành công nghiệp.
Từ góc độ mô hình đào tạo, đào tạo phi tập trung không phù hợp với tất cả các loại nhiệm vụ. Trong một số tình huống, do cấu trúc nhiệm vụ phức tạp, yêu cầu tài nguyên cực kỳ cao hoặc độ khó trong hợp tác, nó tự nhiên không phù hợp để hoàn thành hiệu quả giữa các nút không đồng nhất và không cần tin cậy. Ví dụ, đào tạo mô hình lớn thường phụ thuộc vào bộ nhớ cao, độ trễ thấp và băng thông cao, khó có thể phân chia và đồng bộ hiệu quả trong mạng mở; nhiệm vụ có quyền riêng tư dữ liệu và hạn chế chủ quyền mạnh bị giới hạn bởi tuân thủ pháp lý và ràng buộc đạo đức, không thể chia sẻ mở; trong khi nhiệm vụ thiếu nền tảng động lực hợp tác thì thiếu động lực tham gia bên ngoài. Những ranh giới này cùng nhau cấu thành những giới hạn thực tế của đào tạo phi tập trung hiện tại.
Nhưng điều này không có nghĩa là đào tạo phi tập trung là một đề xuất sai. Trên thực tế, trong các loại nhiệm vụ nhẹ cấu trúc, dễ song song và có thể khuyến khích, đào tạo phi tập trung thể hiện rõ triển vọng ứng dụng. Bao gồm nhưng không giới hạn: Tinh chỉnh LoRA, các nhiệm vụ huấn luyện sau hành vi, nhiệm vụ huấn luyện và gán nhãn dữ liệu theo hình thức crowdsourcing, đào tạo mô hình cơ bản nhỏ có thể kiểm soát tài nguyên, cũng như các tình huống đào tạo hợp tác có sự tham gia của thiết bị biên. Các nhiệm vụ này thường có tính song song cao, độ kết nối thấp và khả năng chịu đựng sức mạnh tính toán không đồng nhất, rất phù hợp để thực hiện đào tạo hợp tác thông qua mạng P2P, giao thức Swarm, bộ tối ưu phân tán và các phương pháp khác.
Hiện tại, trong lĩnh vực đào tạo phi tập trung và học tập liên bang, các dự án blockchain tiêu biểu bao gồm Prime Intellect, Pluralis.ai, Gensyn, Nous Research và Flock.io. Xét về tính đổi mới công nghệ và độ khó trong việc triển khai kỹ thuật, Prime Intellect, Nous Research và Pluralis.ai đã đưa ra nhiều khám phá sáng tạo trong thiết kế hệ thống và thuật toán, đại diện cho hướng nghiên cứu lý thuyết hiện tại; trong khi đó, con đường thực hiện của Gensyn và Flock.io tương đối rõ ràng, đã có thể thấy được tiến triển ban đầu trong việc hiện thực hóa.
Prime Intellect cam kết xây dựng một mạng lưới đào tạo AI không cần tín nhiệm, cho phép bất kỳ ai tham gia đào tạo và nhận phần thưởng đáng tin cậy cho những đóng góp tính toán của họ. Prime Intellect hy vọng thông qua ba mô-đun PRIME-RL + TOPLOC + SHARDCAST, xây dựng một hệ thống đào tạo AI Phi tập trung có khả năng xác minh, tính mở và cơ chế khuyến khích đầy đủ.
PRIME-RL là khuôn khổ mô hình hóa và thực thi nhiệm vụ được Prime Intellect tùy chỉnh cho các kịch bản đào tạo Phi tập trung, được thiết kế đặc biệt cho mạng lưới dị thể và sự tham gia bất đồng bộ. Nó sử dụng học tăng cường như đối tượng ưu tiên thích ứng, tách biệt cấu trúc quá trình đào tạo, suy diễn và tải trọng lên, cho phép mỗi nút đào tạo hoàn thành chu trình nhiệm vụ độc lập tại địa phương, và phối hợp với cơ chế xác thực và tổng hợp thông qua giao diện tiêu chuẩn hóa. So với quy trình học giám sát truyền thống, PRIME-RL phù hợp hơn để thực hiện đào tạo linh hoạt trong môi trường không có điều độ trung tâm, vừa giảm độ phức tạp của hệ thống, vừa đặt nền tảng cho việc hỗ trợ nhiều nhiệm vụ song song và tiến hóa chiến lược.
TOPLOC là cơ chế cốt lõi có thể xác minh được do Prime Intellect đề xuất, dùng để xác định xem một nút có thực sự hoàn thành việc học chiến lược hiệu quả dựa trên dữ liệu quan sát hay không. Khác với các giải pháp nặng như ZKML, TOPLOC không phụ thuộc vào việc tính toán lại toàn bộ mô hình, mà hoàn thành việc xác minh cấu trúc nhẹ thông qua việc phân tích quỹ đạo nhất quán cục bộ giữa "chuỗi quan sát↔cập nhật chiến lược". Đây là lần đầu tiên hành vi quỹ đạo trong quá trình huấn luyện được chuyển đổi thành đối tượng có thể xác minh, là đổi mới then chốt để thực hiện phân phối phần thưởng huấn luyện mà không cần tin cậy, cung cấp con đường khả thi cho việc xây dựng mạng lưới huấn luyện hợp tác phi tập trung có thể kiểm toán và có thể khuyến khích.
SHARDCAST là giao thức phân phối và tổng hợp trọng số được thiết kế bởi Prime Intellect, được tối ưu hóa đặc biệt cho môi trường mạng thực tế với tính bất đồng bộ, băng thông hạn chế và trạng thái nút thay đổi. Nó kết hợp cơ chế truyền tin gossip và chiến lược đồng bộ cục bộ, cho phép nhiều nút liên tục gửi các cập nhật một phần trong trạng thái không đồng bộ, đạt được sự hội tụ dần dần của trọng số và sự tiến hóa phiên bản đa dạng. So với các phương pháp AllReduce tập trung hoặc đồng bộ, SHARDCAST cải thiện đáng kể khả năng mở rộng và khả năng chịu lỗi của việc huấn luyện Phi tập trung, là nền tảng cốt lõi để xây dựng sự đồng thuận trọng số ổn định và tiếp tục các vòng huấn luyện.
OpenDiLoCo là một khung tối ưu hóa truyền thông được nhóm Prime Intellect độc lập hiện thực hóa và mã nguồn mở dựa trên khái niệm DiLoCo mà DeepMind đã đưa ra, được thiết kế đặc biệt cho những thách thức phổ biến trong đào tạo phi tập trung như băng thông hạn chế, thiết bị không đồng nhất và nút không ổn định. Kiến trúc của nó dựa trên sự song song dữ liệu, thông qua việc xây dựng các cấu trúc topo thưa như Ring, Expander và Small-World, đã tránh được chi phí truyền thông cao của đồng bộ toàn cầu, chỉ phụ thuộc vào các nút hàng xóm cục bộ để hoàn thành việc đào tạo hợp tác mô hình. Kết hợp cập nhật không đồng bộ và cơ chế chịu lỗi điểm dừng, OpenDiLoCo cho phép GPU tiêu dùng và thiết bị biên cũng có thể tham gia ổn định vào các nhiệm vụ đào tạo, nâng cao đáng kể khả năng tham gia vào đào tạo hợp tác toàn cầu, là một trong những cơ sở hạ tầng truyền thông quan trọng để xây dựng mạng lưới đào tạo phi tập trung.
PCCL là thư viện truyền thông nhẹ được Prime Intellect thiết kế riêng cho môi trường đào tạo AI Phi tập trung, nhằm giải quyết những nút thắt trong việc thích ứng của các thư viện truyền thông truyền thống trong các thiết bị dị thể và mạng lưới băng thông thấp. PCCL hỗ trợ cấu trúc thưa, nén độ dốc, đồng bộ độ chính xác thấp và khôi phục điểm dừng, có thể chạy trên GPU tiêu dùng và các nút không ổn định, là thành phần hỗ trợ khả năng truyền thông bất đồng bộ của giao thức OpenDiLoCo. Nó nâng cao đáng kể khả năng chịu băng thông của mạng đào tạo và tính tương thích của thiết bị, mở ra "cây cầu cuối cùng" cho cơ sở hạ tầng truyền thông trong việc xây dựng mạng đào tạo hợp tác thực sự mở và không cần tin cậy.
Prime Intellect xây dựng một mạng lưới đào tạo không cần cấp phép, có thể xác minh và có cơ chế khuyến khích kinh tế, cho phép bất kỳ ai tham gia vào nhiệm vụ và nhận phần thưởng dựa trên đóng góp thực tế. Giao thức hoạt động dựa trên ba loại vai trò cốt lõi: người khởi tạo nhiệm vụ, nút đào tạo và nút xác minh. Quy trình cốt lõi của giao thức bao gồm phát hành nhiệm vụ, đào tạo nút, xác minh quỹ đạo, tổng hợp trọng số và phát phần thưởng, tạo thành một vòng khuyến khích xoay quanh "hành vi đào tạo thực tế".
Prime Intellect đã phát hành INTELLECT-2 vào tháng 5 năm 2025, đây là mô hình học tăng cường lớn đầu tiên trên thế giới được đào tạo thông qua sự hợp tác của các nút phi tập trung không cần tin cậy và bất đồng bộ, với quy mô tham số đạt 32B. Mô hình INTELLECT-2 được hoàn thành thông qua sự hợp tác đào tạo của hơn 100 nút GPU dị thể trải khắp ba châu lục, sử dụng kiến trúc hoàn toàn bất đồng bộ, thời gian đào tạo vượt quá 400 giờ, chứng minh tính khả thi và ổn định của mạng lưới hợp tác bất đồng bộ. Mô hình này không chỉ là một bước đột phá về hiệu suất, mà còn là sự hiện thực hóa hệ thống đầu tiên của mô hình "đào tạo chính là đồng thuận" mà Prime Intellect đã đưa ra. INTELLECT-2 tích hợp các mô-đun giao thức cốt lõi như PRIME-RL, TOPLOC và SHARDCAST, đánh dấu lần đầu tiên mạng lưới đào tạo phi tập trung thực hiện được quá trình đào tạo một cách mở, kiểm chứng và chu trình khuyến khích kinh tế.
Về hiệu suất, INTELLECT-2 dựa trên QwQ-32B được đào tạo và đã thực hiện đào tạo RL chuyên biệt về mã và toán học, nằm ở đỉnh cao của các mô hình RL tinh chỉnh mã nguồn mở hiện tại. Mặc dù chưa vượt qua các mô hình đóng như GPT-4 hoặc Gemini, nhưng ý nghĩa thực sự của nó là: đây là thí nghiệm mô hình phi tập trung đầu tiên trên thế giới có quy trình đào tạo hoàn chỉnh có thể tái tạo, xác minh và kiểm toán. Prime Intellect không chỉ mở mã mô hình mà quan trọng hơn là mở quy trình đào tạo - dữ liệu đào tạo, lộ trình cập nhật chiến lược, quy trình xác minh và logic tổng hợp đều minh bạch và có thể kiểm tra, xây dựng một nguyên mẫu mạng lưới đào tạo phi tập trung mà mọi người có thể tham gia, hợp tác đáng tin cậy và chia sẻ lợi ích.
Pluralis là một dự án Web3 AI tập trung vào "mạng lưới đào tạo hợp tác đáng tin cậy", với mục tiêu cốt lõi là thúc đẩy một mô hình đào tạo được Phi tập trung, tham gia mở và có cơ chế khuyến khích lâu dài. Khác với các con đường đào tạo tập trung hoặc đóng kín hiện nay, Pluralis đưa ra một khái niệm hoàn toàn mới mang tên Học giao thức: "hợp đồng hóa" quá trình đào tạo mô hình, thông qua cơ chế hợp tác có thể xác minh và ánh xạ quyền sở hữu mô hình, xây dựng một hệ thống đào tạo mở có vòng khuyến khích nội sinh.
Protocol Learning mà Pluralis đưa ra bao gồm ba trụ cột chính:
Mô hình không thể trích xuất: Mô hình được phân phối dưới dạng mảnh giữa nhiều nút, không có nút đơn nào có thể khôi phục trọng số hoàn chỉnh giữ kín mã. Thiết kế này khiến mô hình trở thành "tài sản trong giao thức", có thể thực hiện kiểm soát chứng chỉ truy cập, bảo vệ rò rỉ và gắn kết quyền lợi.
Huấn luyện mô hình song song dựa trên Internet: Thông qua cơ chế song song Pipeline bất đồng bộ, các nút khác nhau chỉ nắm giữ một phần trọng số, hợp tác hoàn thành việc huấn luyện hoặc suy diễn thông qua mạng lưới băng thông thấp.
Phân phối quyền sở hữu theo mô hình đóng góp: Tất cả các nút tham gia nhận được quyền sở hữu một phần của mô hình dựa trên đóng góp đào tạo của họ, từ đó hưởng lợi từ việc chia sẻ lợi nhuận trong tương lai và quyền quản trị giao thức.
Trong khía cạnh cơ chế kỹ thuật,