Исследование будущего ИИ: передовые технологии и вызовы децентрализованного обучения

2025-07-04 19:03:43

Священный Грааль Crypto AI: передовые исследования децентрализованного обучения

Обучение ИИ является самым важным этапом в цепочке создания ценности ИИ, который напрямую определяет пределы возможностей модели и эффективность применения. В отличие от легковесных операций вывода, процесс обучения требует постоянных вложений в масштабные вычислительные мощности, сложных процессов обработки данных и поддержки высокоинтенсивных алгоритмов оптимизации, что делает его настоящей "тяжелой промышленностью" в построении систем ИИ. С точки зрения архитектурных парадигм, методы обучения можно разделить на четыре категории: централизованное обучение, распределенное обучение, федеративное обучение и децентрализованное обучение, которое будет основным предметом обсуждения в данной статье.

Централизованное обучение является самым традиционным способом, при котором единый орган завершает весь процесс обучения на локальном высокопроизводительном кластере, где все компоненты, от аппаратного обеспечения до программного обеспечения, координируются единой системой управления. Эта глубоко скоординированная архитектура позволяет достичь максимальной эффективности обучения, что делает ее очень подходящей для обучения крупных моделей, таких как GPT и Gemini, обладая преимуществами высокой эффективности и контролируемых ресурсов, но в то же время существуют такие проблемы, как монополия на данные, барьеры на ресурсы, потребление энергии и риски единой точки.

Распределенное обучение является основным способом обучения больших моделей на сегодняшний день, его суть заключается в разбиении задачи обучения модели и распределении ее выполнения на несколько машин для преодоления узких мест в вычислениях и хранении данных на одной машине. Несмотря на то, что физически оно обладает характеристиками "Децентрализации", в целом все еще контролируется и координируется централизованной организацией, обычно работает в среде высокоскоростных локальных сетей и использует технологию высокоскоростной межсоединительной шины NVLink, где главный узел координирует выполнение подзадач. Основные методы включают параллельную обработку данных, параллельную обработку моделей, конвейерную параллельную обработку и тензорную параллельную обработку. Распределенное обучение является комбинацией "централизованного контроля + распределенного выполнения", аналогично тому, как один и тот же начальник удаленно руководит сотрудниками в нескольких "офисах" для выполнения задач. В настоящее время почти все основные большие модели обучаются именно таким образом.

Децентрализация обучения представляет собой более открытую и устойчивую к цензуре траекторию будущего. Его ключевыми характеристиками являются: множество недоверяющих друг другу узлов, которые совместно выполняют задачи обучения без централизованного координатора, обычно с помощью протоколов для распределения задач и сотрудничества, а также с помощью криптографических механизмов стимулирования для обеспечения честности вкладов. Основные вызовы, с которыми сталкивается эта модель, включают гетерогенность устройств и трудности разбиения, узкие места в эффективности связи, отсутствие доверительного выполнения, недостаток единой координации и т.д. Децентрализованное обучение можно понимать как: группа глобальных добровольцев, каждый из которых вносит вычислительные мощности для совместного обучения модели, но "по-настоящему жизнеспособное крупномасштабное децентрализованное обучение" все еще является системным инженерным вызовом, затрагивающим множество аспектов, таких как системная архитектура, коммуникационные протоколы, криптографическая безопасность, экономические механизмы, валидация моделей и т.д. Возможность "эффективного сотрудничества + стимулирования честности + правильности результатов" все еще находится на ранней стадии прототипирования.

Федеративное обучение, будучи переходной формой между распределенной и Децентрализация, подчеркивает локальное хранение данных и централизованную агрегацию параметров модели, подходит для ситуаций, акцентирующих внимание на соблюдении конфиденциальности. Федеративное обучение обладает инженерной структурой распределенного обучения и локальными координационными возможностями, одновременно имея преимущества распределенных данных в Децентрализация, но все же зависит от доверенной координирующей стороны и не обладает полностью открытыми и антикоррупционными характеристиками. Это можно рассматривать как "контролируемое Децентрализация" решение в условиях соблюдения конфиденциальности, которое относительно умеренно в задачах обучения, структуре доверия и механизмах связи, более подходящее в качестве переходной архитектуры для промышленности.

С точки зрения парадигмы обучения, Децентрализация обучения не подходит для всех типов задач. В некоторых сценариях, из-за сложной структуры задачи, очень высоких требований к ресурсам или значительных трудностей в сотрудничестве, она естественно не подходит для эффективного выполнения на гетерогенных, доверительных узлах. Например, обучение больших моделей часто зависит от высокой видеопамяти, низкой задержки и высокой пропускной способности, что затрудняет эффективное разделение и синхронизацию в открытой сети; задачи, требующие серьезной конфиденциальности данных и суверенитета, ограничены юридическими нормами и этическими соображениями, и не могут быть открыто распространены; в то время как задачи, которые не имеют основы для сотрудничества, лишены внешней мотивации для участия. Эти границы вместе составляют реальные ограничения Децентрализации обучения на данный момент.

Но это не означает, что Децентрализация обучения является ложным утверждением. На самом деле, в типах задач, которые имеют легкую структуру, легко параллелятся и могут быть стимулированы, Децентрализация обучения демонстрирует явные перспективы применения. Включая, но не ограничиваясь: LoRA дообучение, задачи постобучения по выравниванию поведения, обучение и разметка данных с помощью краудсорсинга, обучение малых базовых моделей с контролируемыми ресурсами, а также сценарии кооперативного обучения с участием краевых устройств. Эти задачи обычно обладают высокой параллельностью, низкой связанностью и терпимостью к гетерогенным вычислительным мощностям, что делает их очень подходящими для кооперативного обучения через P2P сети, протоколы Swarm, распределенные оптимизаторы и т.д.

В настоящее время в области Децентрализация обучения и федеративного обучения, представительные блокчейн-проекты включают Prime Intellect, Pluralis.ai, Gensyn, Nous Research и Flock.io. С точки зрения технической инновационности и сложности реализации, Prime Intellect, Nous Research и Pluralis.ai предложили множество оригинальных исследований в проектировании системной архитектуры и алгоритмов, что представляет собой передовые направления текущих теоретических исследований; в то время как пути реализации Gensyn и Flock.io относительно ясны, уже можно увидеть первые шаги в инженерной реализации.

Prime Intellect стремится создать сеть обучения ИИ, не требующую доверия, чтобы любой мог участвовать в обучении и получать заслуженные вознаграждения за свои вычислительные вклады. Prime Intellect надеется построить систему децентрализованного обучения ИИ с проверяемостью, открытостью и полноценным механизмом стимулов с помощью трех основных модулей: PRIME-RL + TOPLOC + SHARDCAST.

PRIME-RL является фреймворком моделирования и выполнения задач, разработанным Prime Intellect для децентрализованных сценариев обучения, специально созданным для гетерогенных сетей и асинхронного участия. Он использует обучение с подкреплением в качестве приоритетного объекта адаптации, структурно разъединяя процессы обучения, вывода и загрузки весов, что позволяет каждому обучающему узлу независимо выполнять циклы задач локально и сотрудничать через стандартизированные интерфейсы с механизмами валидации и агрегации. По сравнению с традиционными процессами супервизорного обучения, PRIME-RL лучше подходит для реализации гибкого обучения в средах без центрального управления, что снижает сложность системы и закладывает основу для поддержки параллельных многозадач и эволюции стратегий.

TOPLOC — это основной механизм проверяемости обучения, предложенный Prime Intellect, который используется для определения того, завершил ли узел эффективное обучение стратегии на основе наблюдаемых данных. В отличие от тяжелых решений, таких как ZKML, TOPLOC не зависит от повторного вычисления всей модели, а завершает верификацию легковесной структуры путём анализа локальных согласованных траекторий между "последовательностью наблюдений ↔ обновлением стратегии". Он впервые преобразует поведенческие траектории в процессе обучения в проверяемые объекты, что является ключевым новшеством для реализации распределения вознаграждений за обучение без доверия, обеспечивая жизнеспособный путь для построения可审计、可激励的 Децентрализация кооперативной обучающей сети.

SHARDCAST — это протокол распространения и агрегирования весов, разработанный Prime Intellect, оптимизированный для реальных сетевых условий с асинхронным взаимодействием, ограниченной пропускной способностью и изменяющимся состоянием узлов. Он сочетает в себе механизмы распространения gossip и локальные стратегии синхронизации, позволяя нескольким узлам непрерывно отправлять частичные обновления в условиях несинхронизированного состояния, что обеспечивает постепенную сходимость весов и многоверсионную эволюцию. По сравнению с централизованными или синхронными методами AllReduce, SHARDCAST значительно повышает масштабируемость и устойчивость к сбоям в децентрализованном обучении, являясь основой для построения стабильного согласия по весам и непрерывной итерации обучения.

OpenDiLoCo является независимой реализацией и открытым исходным кодом оптимизированной коммуникационной платформы, разработанной командой Prime Intellect на основе концепции DiLoCo, предложенной DeepMind, и предназначена для решения таких проблем, как ограниченная пропускная способность, гетерогенные устройства и нестабильные узлы, которые часто встречаются в процессе децентрализованного обучения. Архитектура основана на параллельной обработке данных и использует разреженные топологии, такие как кольцевые, расширяющиеся и маломировые, чтобы избежать высоких затрат на связь, связанных с глобальной синхронизацией, полагаясь только на соседние узлы для совместного обучения модели. В сочетании с асинхронными обновлениями и механизмом восстановления после сбоев, OpenDiLoCo позволяет потребительским GPU и краевым устройствам стабильно участвовать в учебных задачах, значительно увеличивая доступность глобального сотрудничества в обучении и являясь одной из ключевых коммуникационных инфраструктур для построения децентрализованной обучающей сети.

PCCL — это легковесная коммуникационная библиотека, созданная Prime Intellect для децентрализованной среды обучения ИИ, которая направлена на решение проблем адаптации традиционных коммуникационных библиотек на гетерогенных устройствах и в сетях с низкой пропускной способностью. PCCL поддерживает разреженные топологии, сжатие градиентов, синхронизацию с низкой точностью и восстановление после сбоев, может работать на потребительских GPU и нестабильных узлах, являясь базовым компонентом, поддерживающим асинхронные коммуникационные возможности протокола OpenDiLoCo. Он значительно увеличивает толерантность сети к пропускной способности и совместимость устройств, прокладывая "последнюю милю" коммуникационной инфраструктуры для создания действительно открытой, не требующей доверия сети совместного обучения.

Prime Intellect построил сеть обучения, не требующую разрешения, проверяемую и имеющую экономические стимулы, что позволяет любому участвовать в задачах и получать вознаграждения на основе реального вклада. Протокол работает на основе трех основных ролей: инициатор задач, узлы обучения и узлы проверки. Основной процесс протокола включает в себя публикацию задач, обучение узлов, проверку траекторий, агрегацию весов и распределение вознаграждений, образуя замкнутый цикл стимулов вокруг "реальных обучающих действий".

Prime Intellect выпустила INTELLECT-2 в мае 2025 года, это первая в мире большая модель глубокого обучения, созданная с помощью асинхронного, доверия не требующего, Децентрализация узлов. Масштаб параметров достигает 32B. Модель INTELLECT-2 была обучена с использованием более 100 гетерогенных узлов GPU, расположенных на трех континентах, с использованием полностью асинхронной архитектуры, продолжительность обучения превышает 400 часов, что демонстрирует жизнеспособность и стабильность асинхронной кооперативной сети. Эта модель не только представляет собой прорыв в производительности, но и является первой системной реализацией предложенной Prime Intellect парадигмы "обучение как консенсус". INTELLECT-2 интегрирует ключевые протоколы, такие как PRIME-RL, TOPLOC и SHARDCAST, что знаменует собой первую реализацию открытости, проверяемости и экономического стимулов в процессе обучения в Децентрализация сети.

В плане производительности INTELLECT-2 основан на QwQ-32B и прошел специальную RL-тренировку в коде и математике, находясь на переднем крае современных открытых RL моделей. Хотя он еще не превзошел закрытые модели, такие как GPT-4 или Gemini, его истинное значение заключается в том, что это первая в мире децентрализованная модельный эксперимент с полностью воспроизводимым, проверяемым и аудитируемым процессом обучения. Prime Intellect не только сделал модель открытой, но что более важно, он открыл сам процесс обучения -- тренировочные данные, траектории обновления стратегии, процессы валидации и агрегирующая логика полностью прозрачны и доступны для проверки, создавая прототип децентрализованной сети обучения, в которой каждый может участвовать, доверительно сотрудничать и делиться доходами.

Pluralis является проектом Web3 AI, сосредоточенным на "доверительном совместном обучении сетей", его основной целью является продвижение модели обучения, основанной на децентрализации, открытом участии и долгосрочных механизмах стимулов. В отличие от текущих мейнстримных централизованных или закрытых путей обучения, Pluralis предлагает новую концепцию под названием Protocol Learning: "протоколирование" процесса обучения модели, создание открытой обучающей системы с внутренним замкнутым контуром стимулов через проверяемые механизмы сотрудничества и отображение прав собственности на модель.

Протокол обучения, предложенный Pluralis, включает три ключевых столпа:

Невозможная извлекаемая модель: модель распределена в виде фрагментов между несколькими узлами, и любой отдельный узел не может восстановить полные веса, оставаясь закрытым исходным кодом. Такой дизайн делает модель естественным "активом внутри протокола", что позволяет реализовать контроль доступа, защиту от утечек и привязку доходов.
Модели параллельного обучения на основе интернета: с помощью асинхронного механизма параллельного обучения Pipeline разные узлы хранят только часть весов и сотрудничают для завершения обучения или вывода через сеть с низкой пропускной способностью.
Модель распределения собственности по вкладу: Все участвующие узлы получают частичную собственность на модель в зависимости от их вклада в обучение, что дает им право на будущие доходы и участие в управлении протоколом.

В техническом механизме,

PRIME2.34%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

7 Лайков