Дослідження майбутнього ШІ: передові технології та виклики децентралізованого навчання

2025-07-04 19:03:43

Святий Грааль Crypto AI: передовий досвід децентралізованого навчання

Навчання ШІ є найважливішим етапом у всьому ланцюзі вартості ШІ, оскільки воно безпосередньо визначає верхній межі можливостей моделі та ефективність застосування. У порівнянні з легковажними викликами для інференції, процес навчання потребує постійних великих обсягів обчислювальної потужності, складних процесів обробки даних та підтримки високоефективних алгоритмів оптимізації, що робить його справжньою "важкою промисловістю" у побудові системи ШІ. З точки зору архітектурних парадигм, способи навчання можна розділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою цієї статті.

Концентрація навчання є найтрадиційнішим способом, коли єдина організація завершує весь процес навчання в локальному високопродуктивному кластері, де всі компоненти, від апаратного забезпечення до програмного, координуються єдиною системою управління. Ця глибоко координована архітектура забезпечує оптимальну ефективність навчання, що робить її дуже придатною для навчання великих моделей, таких як GPT і Gemini, маючи переваги у високій ефективності та контрольованих ресурсах, але водночас стикається з проблемами монополії на дані, бар'єрів для ресурсів, витрат енергії та ризиків одноточкового збоїв.

Розподілене навчання є основним способом навчання великих моделей. Його суть полягає в тому, щоб розділити завдання навчання моделі та розподілити їх на кілька машин для спільного виконання, щоб подолати обмеження обчислювальної потужності та зберігання даних однієї машини. Хоча фізично воно має "дистрибутивні" характеристики, загалом все ще контролюється централізованою установою для управління та синхронізації, зазвичай працює в середовищі швидкісних локальних мереж, використовуючи технологію NVLink для швидкого з'єднання. Головний вузол координує всі підзавдання. Основні методи включають паралелізм даних, паралелізм моделей, конвеєрний паралелізм та тензорний паралелізм. Розподілене навчання є комбінацією "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той же бос дистанційно керує співробітниками кількох "офісів" для виконання завдань. На сьогодні майже всі основні великі моделі навчаються за цим методом.

Децентралізоване навчання означає більш відкритий і стійкий до цензури майбутній шлях. Його основні характеристики полягають у тому, що: кілька взаємно недовірливих вузлів співпрацюють для виконання навчальних завдань без центрального координатора, зазвичай за допомогою протоколів для розподілу завдань і співпраці, а також за допомогою механізмів криптографічного стимулювання для забезпечення чесності внесків. Основні виклики, з якими стикається ця модель, включають гетерогенність пристроїв і труднощі сегментації, вузькі місця в комунікаційній ефективності, відсутність надійного виконання, відсутність єдиної координації тощо. Децентралізоване навчання можна розуміти як: групу глобальних волонтерів, які вносять свої обчислювальні потужності для спільного навчання моделі, але "справді здійснене велике масштабне децентралізоване навчання" все ще є системною інженерною проблемою, що охоплює системну архітектуру, комунікаційні протоколи, криптографічну безпеку, економічні механізми, валідацію моделей та інші аспекти. Чи можливо "ефективна співпраця + стимулювання чесності + правильність результатів" ще перебуває на стадії раннього прототипування.

Федеративне навчання як перехідна форма між розподіленістю та Децентралізацією підкреслює локальне зберігання даних та централізовану агрегацію параметрів моделі, що підходить для сцен, які акцентують увагу на відповідності вимогам конфіденційності. Федеративне навчання має інженерну структуру розподіленого навчання та локальні кооперативні можливості, водночас має переваги розподіленого навчання з точки зору даних, але все ще залежить від надійного координатора і не має властивостей повної відкритості та стійкості до цензури. Його можна розглядати як "контрольоване Децентралізація" у контексті відповідності вимогам конфіденційності, з відносно помірними навчальними завданнями, структурами довіри та комунікаційними механізмами, що робить його більш підходящим для промислових перехідних архітектур.

З точки зору навчальних парадигм, децентралізоване навчання не підходить для всіх типів завдань. У деяких сценаріях, через складну структуру завдань, надзвичайно високі вимоги до ресурсів або велику складність співпраці, воно природно не підходить для ефективного виконання між гетерогенними, децентралізованими вузлами. Наприклад, навчання великих моделей часто залежить від високої пам'яті, низької затримки та високошвидкісної пропускної здатності, що ускладнює їх ефективне розподіл і синхронізацію в відкритих мережах; завдання, що мають сильні обмеження щодо конфіденційності даних і суверенітету, обмежені правовими вимогами та етичними нормами, не можуть бути відкрито доступними для спільного використання; а завдання, що не мають основи для співпраці, не мають зовнішніх стимулів для участі. Ці межі разом утворюють реальні обмеження децентралізованого навчання сьогодні.

Але це не означає, що децентралізоване навчання є псевдопитанням. Насправді, у типах завдань, які є легкими за структурою, простими для паралелізації та мотиваційними, децентралізоване навчання демонструє чіткі перспективи застосування. Сюди входять, але не обмежуються: LoRA доопрацювання, завдання після навчання з вирівнюванням поведінки, навчання та маркування даних через краудсорсинг, навчання малих базових моделей з контрольованими ресурсами, а також сцени кооперативного навчання за участю крайових пристроїв. Ці завдання зазвичай мають високу паралельність, низьку зв'язаність і толерантність до гетерогенних обчислювальних потужностей, що робить їх дуже підходящими для кооперативного навчання через P2P мережі, протокол Swarm, розподілені оптимізатори тощо.

Наразі у децентралізації та федеративному навчанні на передовій, репрезентативні блокчейн-проекти, такі як Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технічної інноваційності та складності реалізації, Prime Intellect, Nous Research та Pluralis.ai запропонували багато оригінальних досліджень в системній архітектурі та алгоритмах, що представляє передові напрямки сучасних теоретичних досліджень; тоді як шляхи реалізації Gensyn та Flock.io є відносно зрозумілими, вже можна побачити перші кроки в інженерному прогресі.

Prime Intellect прагне побудувати мережу тренування штучного інтелекту без необхідності довіри, що дозволяє будь-кому брати участь у тренуванні та отримувати надійні винагороди за свої обчислювальні внески. Prime Intellect сподівається створити децентралізовану систему тренування штучного інтелекту з верифікацією, відкритістю та повноцінним механізмом стимулювання через три основні модулі: PRIME-RL + TOPLOC + SHARDCAST.

PRIME-RL є фреймворком моделювання та виконання завдань, спеціально розробленим Prime Intellect для Децентралізації навчальних сценаріїв, призначеним для гетерогенних мереж та асинхронної участі. Він використовує підкріплене навчання як пріоритетний об'єкт адаптації, структурно розкриваючи процеси навчання, інференції та завантаження ваг, дозволяючи кожному навчальному вузлу незалежно виконувати цикли завдань локально та співпрацювати через стандартизовані інтерфейси з механізмами верифікації та агрегації. У порівнянні з традиційними процесами контрольованого навчання, PRIME-RL краще підходить для реалізації гнучкого навчання в середовищах без централізованого управління, знижуючи складність системи та закладаючи основу для підтримки багатозадачності та еволюції стратегій.

TOPLOC є основним механізмом верифікації навчання, запропонованим Prime Intellect, який використовується для визначення, чи дійсно вузол завершив ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не залежить від повторного обчислення всієї моделі, а здійснює верифікацію легкоструктурованих даних, аналізуючи локальні послідовності узгодженості між "послідовностями спостережень ↔ оновленнями стратегії". Він вперше перетворює поведінкові траєкторії навчального процесу на об'єкти, що підлягають верифікації, що є ключовою інновацією для реалізації розподілу винагороди за навчання без довіри, і забезпечує здійсненний шлях для створення аудитованих, мотивуючих мереж децентралізованого співпраці.

SHARDCAST є протоколом вагового розповсюдження та агрегації, розробленим Prime Intellect, спеціально оптимізованим для асинхронних, обмежених по пропускній здатності та змінних станах вузлів у реальних мережевих умовах. Він поєднує механізм розповсюдження gossip та локальні синхронізаційні стратегії, що дозволяє кільком вузлам продовжувати подавати часткові оновлення в умовах асинхронного стану, досягаючи поступової конвергенції ваг та багатовимірної еволюції. На відміну від централізованих або синхронних методів AllReduce, SHARDCAST значно покращує масштабованість і стійкість до помилок децентралізованого навчання, що є основою для створення стабільного консенсусу ваг та постійної ітерації навчання.

OpenDiLoCo є незалежною реалізацією та відкритим вихідним кодом фреймворку оптимізації зв'язку, розробленим командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind, спеціально розробленим для вирішення таких викликів, як обмежена пропускна здатність, гетерогенність пристроїв та нестабільність вузлів, які часто зустрічаються в децентралізованому навчанні. Його архітектура базується на паралельній обробці даних, шляхом побудови розріджених топологій, таких як Ring, Expander, Small-World, що дозволяє уникнути високих витрат на зв'язок під час глобальної синхронізації, і для координації навчання моделей покладається лише на локальних сусідів. Поєднуючи асинхронні оновлення і механізм відмовостійкості, OpenDiLoCo дозволяє споживчим GPU та крайовим пристроям стабільно брати участь у навчальних завданнях, значно підвищуючи участь у глобальному кооперативному навчанні і є однією з ключових інфраструктур зв'язку для побудови децентралізованої навчальної мережі.

PCCL є легковажною бібліотекою зв'язку, розробленою Prime Intellect для децентралізованого середовища навчання ШІ, що має на меті вирішення адаптаційних вузьких місць традиційних бібліотек зв'язку в гетерогенних пристроях та мережах з низькою пропускною здатністю. PCCL підтримує розріджену топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є основним компонентом, що підтримує асинхронні комунікаційні можливості протоколу OpenDiLoCo. Він суттєво підвищує толерантність до пропускної здатності навчальної мережі та сумісність пристроїв, прокладаючи "останню милю" комунікаційної інфраструктури для створення справді відкритої, бездоказової мережі спільного навчання.

Prime Intellect побудував безперешкодну, перевірену, з економічними стимулами мережу тренувань, що дозволяє кожному брати участь у завданнях і отримувати винагороду на основі реального внеску. Протокол працює на основі трьох основних ролей: ініціатор завдання, тренувальний вузол та верифікаційний вузол. Основні процеси протоколу включають публікацію завдань, тренування вузлів, перевірку траєкторій, агрегацію ваг та виплату винагород, формуючи стимулюючий замкнений цикл навколо "реальних тренувальних дій".

Prime Intellect випустила INTELLECT-2 в травні 2025 року, що є першим у світі великим моделлю навчання з підкріпленням, створеною за допомогою асинхронної, бездоверчої децентралізованої співпраці вузлів. Кількість параметрів досягає 32B. Модель INTELLECT-2 була навчена за допомогою понад 100 гетерогенних вузлів GPU, розташованих на трьох континентах, із використанням повністю асинхронної архітектури; тривалість навчання перевищила 400 годин, що демонструє життєздатність та стабільність асинхронної мережі співпраці. Ця модель не лише є проривом у продуктивності, але й вперше системно реалізує парадигму "навчання = консенсус", запропоновану Prime Intellect. INTELLECT-2 інтегрує ключові протокольні модулі, такі як PRIME-RL, TOPLOC та SHARDCAST, що знаменує собою перше досягнення відкритості, верифікації та економічних стимулів у процесі навчання децентралізованої мережі.

В аспекті продуктивності, INTELLECT-2 базується на QwQ-32B, і має спеціальне RL навчання в коді та математиці, що ставить його на передовій рівні сучасних відкритих RL моделей. Хоча він ще не перевершив закриті моделі, такі як GPT-4 або Gemini, його справжнє значення полягає в тому, що це перший у світі децентралізований експеримент з повністю відтворюваним, перевіряємим і аудиторським процесом навчання моделі. Prime Intellect не лише відкрив модель, але й, що важливіше, відкрив сам процес навчання -- навчальні дані, траєкторії оновлення стратегій, процеси валідації та логіку агрегації є прозорими та доступними для перевірки, створивши прототип децентралізованої навчальної мережі, в якій може брати участь кожен, що забезпечує довіру, співпрацю та спільний дохід.

Pluralis є веб3 AI проектом, який зосереджується на "надійних кооперативних навчальних мережах", його основна мета полягає в просуванні моделі навчання, що має децентралізований, відкритий характер участі та довгостроковий механізм стимулювання. На відміну від сучасних основних централізованих або закритих навчальних шляхів, Pluralis пропонує нову концепцію, що називається Protocol Learning: "протоколізувати" процес навчання моделей, побудувати відкриту навчальну систему з внутрішніми замкнутими механізмами стимулювання через перевірювані механізми співпраці та відображення власності на моделі.

Протокол навчання, запропонований Pluralis, включає три основні опори:

Непереносимі моделі: Модель розподілена у фрагментованій формі між кількома вузлами, жоден окремий вузол не може відновити повну вагу, що зберігає закритість. Такий дизайн робить модель природним "активом в рамках протоколу", що дозволяє реалізувати контроль доступу, захист від витоку та прив'язку доходів.
Модель паралельного навчання на основі Інтернету: через асинхронний механізм паралельного навчання Pipeline, різні вузли утримують лише частину ваг, співпрацюючи через мережу з низькою пропускною здатністю для завершення навчання або висновків.
Розподіл власності за моделлю внеску: всі учасники вузлів отримують частку власності на модель відповідно до їхнього внеску в навчання, що дає їм право на частку майбутнього доходу та право управління протоколом.

В технічному механізмі,

PRIME1.94%

Переглянути оригінал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

7 лайків