AI революція даних: у блокчейні дані стають ключем до подолання бар'єрів штучного інтелекту

Наступна революція в галузі ШІ: від конкуренції обчислювальної потужності до інфраструктури даних

Зі збільшенням параметрів штучного інтелекту до трильйонів, обчислювальна потужність вимірюється в сотнях мільярдів операцій за секунду, одна ключова проблема, що ігнорується, починає виходити на поверхню — дані. Наступна революція в індустрії ІІ більше не буде зумовлена архітектурою моделей або обчислювальною потужністю чіпів, а залежатиме від того, як перетворити фрагментовані дані про людську поведінку на перевірений, структурований, готовий до ІІ капітал. Це усвідомлення не лише виявляє структурні суперечності сучасного розвитку ІІ, але й окреслює зовсім нову картину "ери DataFi" — в цю еру дані більше не є побічним продуктом технологій, а є ключовим виробничим фактором, що може вимірюватися, торгуватися та отримувати додану вартість, як електрика, обчислювальна потужність.

Від обчислювальної потужності до голоду даних: структурні суперечності в індустрії ШІ

Розвиток ШІ довгий час керувався двома ядрами "модель-обчислювальна потужність". З моменту революції глибокого навчання параметри моделі зросли з мільйонів до трильйонів, а потреба в обчислювальній потужності зросла експоненційно. За даними, витрати на навчання сучасної великої мовної моделі перевищують 100 мільйонів доларів, з яких 90% йде на оренду GPU-кластерів. Проте, коли галузь зосереджує увагу на "більшій моделі" та "швидших чіпах", криза на стороні постачання даних тихо наближається.

Людські генерації "органічних даних" досягли стелі зростання. Наприклад, що стосується текстових даних, загальний обсяг високоякісних текстів (книги, статті, новини), які можна публічно сканувати в інтернеті, становить близько 10^12 слів, тоді як навчання моделі з трильйоном параметрів потребує приблизно 10^13 слів даних — це означає, що існуючий пул даних може підтримувати лише навчання 10 моделей однакового масштабу. Ще серйознішою є ситуація, коли частка повторних даних і низькоякісного контенту перевищує 60%, що ще більше зменшує постачання ефективних даних. Коли моделі починають "поїдати" дані, які вони самі згенерували (наприклад, статті, написані ШІ, зображення, згенеровані ШІ), "забруднення даних" призводить до зниження продуктивності моделі, що стало тривожним сигналом для галузі.

Ця суперечність корениться в тому, що індустрія ШІ довгий час сприймала дані як "безкоштовний ресурс", а не як "стратегічний актив", який потрібно ретельно розвивати. Моделі та обчислювальна потужність вже сформували зрілі ринкові системи — обчислювальну потужність оцінюють за FLOPS на хмарних платформах, моделі мають API-інтерфейси з оплатою за кількість викликів — але виробництво, очищення, верифікація та торгівля даними все ще перебувають у "дикунську епоху". Наступні десять років ШІ будуть десятиліттям "інфраструктури даних", а дані на крипто-мережі є ключем до розв'язання цієї проблеми.

Данні на ланцюгу: "База даних людської поведінки", найбільш необхідна для ШІ

На фоні голоду даних, ланцюгові дані криптомережі демонструють незамінну цінність. У порівнянні з традиційними даними Інтернету (як-от пости в соціальних мережах, коментарі до електронної комерції), ланцюгові дані природно мають автентичність "вірності стимулів" — кожна транзакція, кожна взаємодія з контрактом, кожна дія гаманця безпосередньо пов'язана з реальним капіталом і незмінна. Це можна визначити як "найбільш концентровані дані про людські поведінки з налаштуванням стимулів в Інтернеті", що конкретизується в трьох вимірах:

Реальний світ "сигналів наміру"

Дані, що записуються в блокчейні, не є емоційними коментарями або випадковими кліками, а є рішеннями, підтвердженими реальними грошима. Наприклад, обмін активів у певному DEX, заставлення кредиту на платформі кредитування або реєстрація домену на службі доменів безпосередньо відображає оцінку користувачем вартості проєкту, ризикові переваги та стратегії розподілу капіталу. Ці дані, що "підтверджені капіталом", мають надзвичайну цінність для навчання рішень AI (такі як фінансове прогнозування, ринковий аналіз). На відміну від цього, традиційні інтернет-дані переповнені "шумом" — такими як фальшиві лайки в соціальних мережах або підроблені відгуки на платформах електронної комерції, ці дані не лише не можуть тренувати надійні моделі AI, але й можуть вводити в оману моделі в їхніх висновках.

可追溯на "ланцюг дій"

Прозорість блокчейну дозволяє повністю відстежувати поведінку користувачів. Історія транзакцій адреси гаманця, протоколи, з якими взаємодіяли, зміни в активі формують послідовний "ланцюг поведінки". Наприклад, аналізуючи операції певної адреси в DeFi-протоколах з 2020 року до сьогодні, ШІ може точно визначити, чи є вона "довгостроковим інвестором", "арбітражним трейдером" чи "постачальником ліквідності", і на цій основі створити профіль користувача. Ці структуровані дані про поведінку є саме тими "зразками людського мислення", яких найбільше не вистачає сучасним моделям ШІ.

Відкритої екосистеми "безліцензійний доступ"

На відміну від закритості традиційних корпоративних даних (таких як банківські транзакції, дані користувачів електронної комерції), дані на ланцюзі є відкритими і не потребують дозволу. Будь-який розробник може отримати оригінальні дані за допомогою блокчейн-браузера або API даних, що надає "безбар'єрне" джерело даних для навчання AI-моделей. Однак ця відкритість також приносить виклики: дані на ланцюзі існують у формі "журналів подій" (наприклад, події Transfer ERC-20 в Ethereum, події Swap на біржах), є неструктурованими "сирими сигналами", які потрібно очищати, стандартизувати та пов'язувати, щоб їх можна було використовувати в AI-моделях. На даний момент "структурована конверсія" даних на ланцюзі становить менше 5%, велика кількість високоякісних сигналів похована серед десятків мільярдів фрагментованих подій.

Hyperdata Network: "Операційна система" для даних на блокчейні

Щоб вирішити проблему фрагментації даних в ланцюгу, в індустрії було запропоновано Hyperdata Network — "ланцюгову розумну операційну систему", спеціально розроблену для ШІ. Її основна мета полягає в перетворенні розсіяних ланцюгових сигналів у структуровані, перевіряємі, в режимі реального часу готові до використання дані для ШІ.

Рукопис: Відкриті стандарти даних, що дозволяють ШІ "зрозуміти" світ блокчейн

Однією з найбільших проблем з даними на ланцюзі є "хаос форматів" — журнали подій різних блокчейнів (таких як Ethereum, Solana, Avalanche) мають різні формати, а структура даних різних версій одного й того ж протоколу також може змінюватися. Manuscript, як відкритий стандарт схеми даних, уніфікує визначення та опис ланцюгових даних. Наприклад, він стандартизує "поведінку користувачів щодо стейкінгу" у структуровані дані, що містять такі поля, як staker_address, protocol_id, amount, timestamp, reward_token, що гарантує, що AI-моделі не потрібно адаптуватися до різних форматів даних ланцюга чи протоколів, а можуть безпосередньо "зрозуміти" бізнес-логіку, що стоїть за даними.

Ця стандартизована цінність полягає в зменшенні витрат на розробку ШІ. Припустимо, команда має навчити "модель прогнозування поведінки користувачів DeFi"; традиційним способом потрібно було б окремо підключити API кількох ланцюгів, таких як Ethereum, Polygon тощо, написати різні скрипти для парсингу; тоді як на основі Manuscript, всі дані з ланцюга вже попередньо оброблені за єдиним стандартом, розробники можуть безпосередньо використовувати структуровані дані, такі як "записи про стейкінг користувачів" "записи про надання ліквідності" тощо, що значно скорочує терміни навчання моделі.

Основною вимогою до даних AI-моделі є "достовірність" – якщо навчальні дані були змінені або заражені, вихід моделі не матиме жодної цінності. Механізм AVS (Активний набір валідаторів) на Ethereum забезпечує достовірність даних. AVS є розширенням рівня консенсусу Ethereum і складається з понад 600 000 ETH, які закладені в вузли валідаторів, що відповідають за перевірку цілісності та точності даних в ланцюгу. Коли обробляється подія в ланцюгу, вузли AVS перехресно перевіряють хеш-значення даних, інформацію про підписи та стан в ланцюгу, щоб забезпечити, що вихідні структуровані дані повністю збігаються з оригінальними даними в ланцюгу.

Цей механізм верифікації "економіки криптографічної безпеки" вирішує проблему довіри традиційної централізованої верифікації даних. Наприклад, якщо якась AI компанія використовує дані з блокчейну, надані централізованою установою, їй необхідно довіряти, що ця установа не змінює дані; тоді як використовуючи Hyperdata Network, достовірність даних підтверджується децентралізованою мережею верифікаторів, і будь-яка спроба зміни даних активує механізм покарання в смарт-контракті (наприклад, штраф у вигляді утримання заставленого ETH).

Високопродуктивний рівень доступності даних

Моделі ШІ, особливо інтерактивні AI-додатки (такі як торгові роботи, інтелектуальні служби підтримки), потребують низької затримки та високої пропускної здатності постачання даних. Оптимізуючи алгоритми стиснення даних та протоколи передачі, досягається обробка десятків тисяч подій в блокчейні в реальному часі щосекунди. Наприклад, коли на певному DEX відбувається велика угода, система може за 1 секунду завершити витягування даних, їх стандартизацію та валідацію, а також надіслати структурований "сигнал великої угоди" підписаним моделям ШІ, дозволяючи їм своєчасно коригувати торгові стратегії.

Висока пропускна здатність забезпечується модульною архітектурою — розділенням зберігання даних та обчислень; зберігання даних здійснюється за рахунок мережі розподілених вузлів, а обчислення реалізуються через позаблокчейнний Rollup, що уникає вузьких місць продуктивності самого блокчейну. Такий дизайн дозволяє системі підтримувати потреби в реальних даних для масштабних AI-додатків, таких як надання онлайн-сервісів даних на ланцюгу для великої кількості торгових агентів.

Ера DataFi: коли дані стають торгівельним "капіталом"

Головною метою Hyperdata Network є просування AI-індустрії до епохи DataFi — дані більше не є пасивним "тренувальним матеріалом", а активним "капіталом", який можна оцінювати, торгувати та збільшувати його вартість. Як електроенергія оцінюється в кіловатах, обчислювальна потужність оцінюється в FLOPS, так і дані повинні бути оцінювані, ранжовані та оцінювані. Реалізація цього бачення залежить від перетворення даних у чотири основні атрибути:

Структуровані: від "початкового сигналу" до "доступних активів"

Неперероблені дані в ланцюзі нагадують "сиру нафту", яка потребує очищення, щоб стати "бензином". Через стандартизацію їх перетворюють у структуровані дані, наприклад, розбиваючи "адресу гаманця A у час T вносить X токенів до протоколу B" на багатовимірні дані, що містять профіль користувача, властивості протоколу, тип активів та мітку часу. Така структуризація дозволяє даним безпосередньо викликатися AI моделями, так само просто, як виклик API.

Можна комбінувати: "Лего" даних

У Web3 "комбінованість" сприяла вибуху DeFi (наприклад, інновації шляхом комбінації різних протоколів). Застосування цієї ідеї в галузі даних: структуровані дані можна вільно комбінувати, як LEGO. Наприклад, розробники можуть поєднувати "записи про заставу користувачів" (з протоколу застави) з "даними про коливання цін" (з oracle), "обсягом згадувань у соціальних мережах" (з API соціальних платформ), щоб навчити "модель прогнозування ринкових настроїв DeFi". Ця комбінованість значно розширює межі застосування даних, що дозволяє інноваціям AI не обмежуватися єдиним джерелом даних.

Можливість верифікації: "Кредитна підтримка" даних

Через перевірені структуровані дані створюється унікальний "відбиток даних" (хеш-значення), який зберігається в блокчейні. Будь-яке AI-додаток або розробник, що використовує ці дані, може підтвердити достовірність даних, перевіривши хеш-значення. Ця "перевірка" надає даним кредитні властивості — наприклад, набір даних, позначений як "високоякісний торговий сигнал", може бути відстежений за історичною точністю через хеш-записи в блокчейні, користувачам не потрібно довіряти постачальнику набору даних, достатньо перевірити відбиток даних, щоб оцінити якість даних.

Можливість реалізації: "монетизація даних"

У епоху DataFi постачальники даних можуть монетизувати структуровані дані безпосередньо через Hyperdata Network. Наприклад, команда, яка аналізує дані в ланцюгу, розробила "сигнал попередження про вразливість смарт-контрактів", який можна упакувати в API-сервіс і стягувати плату за кількість викликів; звичайні користувачі також можуть уповноважувати спільне використання своїх анонімізованих даних в ланцюгу, отримуючи винагороду у вигляді токенів даних. У екосистемі вартість даних визначається ринковим попитом і пропозицією — сигнали торгівлі з високою точністю можуть оцінюватися дорожче, тоді як базові дані про поведінку користувачів можуть тарифікуватися за раз.

Висновок: Революція даних, наступні десять років штучного інтелекту

Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальних можливостях" моделей, ігноруючи "дані" як основу цього інтелекту. Hyperdata Network виявляє одну з основних істин: еволюція ШІ, по суті, є еволюцією інфраструктури даних. Від "обмеженості" даних, створюваних людьми, до "виявлення вартості" даних на ланцюзі, від "безладності" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовних ресурсів" даних до "капітальних активів" DataFi, ця нова інфраструктура змінює основну логіку індустрії ШІ.

У цю епоху DataFi дані стануть мостом, що з'єднує ІІ та реальний світ — торгові агенти сприймають ринкові настрої через дані в ланцюгу, автономні dApp оптимізують послуги за допомогою даних про поведінку користувачів, а звичайні користувачі отримують постійний дохід через обмін даними. Як електрична мережа сприяла промисловій революції, Обчислювальна потужність мережа сприяла інтернет-революції, так Hyperdata Network сприяє "даній революції" ІІ.

Наступне покоління AI-native застосунків потребує не лише моделей або гаманців, але й даних, що не потребують довіри, є програмованими та містять високий сигнал. Коли дані нарешті отримають належну цінність, AI зможе справді звільнити силу, що змінює світ.

ETH1.75%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 4
  • Репост
  • Поділіться
Прокоментувати
0/400
ContractCollectorvip
· 08-10 03:27
Не поспішайте з даними, спочатку подивіться на Спот та контракти.
Переглянути оригіналвідповісти на0
DeFiCaffeinatorvip
· 08-10 01:16
Не може бути, що хтось справді вірить у цю пастку капіталізації даних.
Переглянути оригіналвідповісти на0
FudVaccinatorvip
· 08-10 01:16
Дані майнер викопують
Переглянути оригіналвідповісти на0
SchroedingersFrontrunvip
· 08-10 01:12
А, як голодно, вже голодую як дані!
Переглянути оригіналвідповісти на0
  • Закріпити