Революция данных ИИ: данные в блокчейне становятся ключом к преодолению瓶颈 искусственного интеллекта

Следующая революция в индустрии ИИ: от вычислительной мощности к инфраструктуре данных

С учетом того, что масштабы параметров моделей искусственного интеллекта превышают триллионы, вычислительная мощность измеряется в сотнях миллиардов операций в секунду, один игнорируемый ключевой узкое место начинает проявляться — данные. Следующая революция в индустрии ИИ больше не будет зависеть от архитектуры моделей или вычислительной мощности чипов, а будет зависеть от того, как преобразовать фрагментированные данные о человеческом поведении в проверяемый, структурированный и готовый к ИИ капитал. Это понимание не только раскрывает текущие структурные противоречия в развитии ИИ, но и очерчивает совершенно новую картину "эпохи DataFi" — в этой эпохе данные больше не являются побочным продуктом технологий, а становятся такими же измеримыми, торгуемыми и обладающими добавленной стоимостью основными производственными факторами, как электричество и вычислительная мощность.

От вычислительной мощности к дефициту данных: структурные противоречия в индустрии ИИ

Развитие ИИ долгое время двигалось вдвое благодаря "модели-вычислительной мощности". С революцией глубокого обучения параметры модели выросли с миллионов до триллионов, а потребность в вычислительной мощности увеличивается экспоненциально. По данным, стоимость обучения продвинутой языковой модели уже превышает 100 миллионов долларов, из которых 90% идут на аренду кластеров GPU. Однако, когда отрасль сосредотачивает внимание на "больших моделях" и "быстрых чипах", кризис на стороне предложения данных незаметно надвигается.

Сгенерированные человеком "органические данные" достигли потолка роста. Например, в случае текстовых данных, общее количество высококачественных текстов (книги, статьи, новости), доступных для парсинга в интернете, составляет примерно 10^12 слов, в то время как для обучения модели с 100 миллиардами параметров требуется около 10^13 слов - это означает, что существующий пул данных может поддерживать обучение только 10 моделей такого же масштаба. Более того, доля повторяющихся данных и низкокачественного контента превышает 60%, что дополнительно сжимает предложение эффективных данных. Когда модель начинает "поглощать" данные, созданные ею самой (например, статьи, написанные ИИ, изображения, сгенерированные ИИ), "загрязнение данных" приводит к ухудшению производительности модели, что стало тревожным сигналом для отрасли.

Корень этого противоречия заключается в том, что AI-индустрия на протяжении длительного времени рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", который необходимо тщательно обрабатывать. Модели и вычислительная мощность уже образовали зрелую рыночную систему — вычислительная мощность оценивается на облачных платформах по FLOPS, а модели имеют API-интерфейсы,收费 за количество вызовов — но производство, очистка, проверка и торговля данными все еще находятся в "диком веке". Следующие десять лет в AI будут десятилетием "инфраструктуры данных", и именно цепочечные данные криптосетей станут ключом к разгадыванию этой проблемы.

Данные в цепочке: "База данных человеческого поведения", наиболее необходимая ИИ

На фоне дефицита данных, он-лайн данные криптосетей демонстрируют свою незаменимую ценность. По сравнению с традиционными интернет-данными (такими как посты в социальных сетях, отзывы о товарах), он-лайн данные имеют врожденную "реальность согласования стимулов" — каждая транзакция, каждое взаимодействие по контракту, каждое поведение адреса кошелька непосредственно связано с реальным капиталом и не подлежит изменению. Это можно определить как "данные о наиболее концентрированном поведении согласования человеческих стимулов в интернете", что конкретно проявляется в трех измерениях:

Реальный мир "сигналов намерений"

Записи данных на блокчейне не являются эмоциональными комментариями или случайными кликами, а представляют собой решения, за которые проголосовано реальными деньгами. Например, действия кошелька по обмену активов на каком-либо DEX, закладке и заимствованию на платформе кредитования или регистрации домена в службе доменных имен прямо отражают оценку пользователем ценности проекта, его склонность к риску и стратегию распределения капитала. Такие данные, «подтвержденные капиталом», имеют огромную ценность для обучения AI в области принятия решений (например, финансовые прогнозы, рыночный анализ). В отличие от этого, традиционные интернет-данные полны «шума» — например, фальшивые лайки в социальных сетях, накрученные отзывы на платформах электронной коммерции; эти данные не только не могут обучить надежную модель AI, но и могут вводить в заблуждение при оценке модели.

可追溯ная "цепь действий"

Прозрачность блокчейна позволяет полностью отслеживать поведение пользователей. Исторические транзакции адреса кошелька, взаимодействовавшие протоколы и изменения в удерживаемых активах составляют связную "цепочку действий". Например, анализируя операции определенного адреса в DeFi-протоколах с 2020 года до настоящего времени, ИИ может точно определить, является ли он "долгосрочным держателем", "арбитражным трейдером" или "поставщиком ликвидности", и на основе этого создать профиль пользователя. Эти структурированные данные о поведении являются настоящим дефицитом "человеческих образцов рассуждений" для современных ИИ-моделей.

Открытая экосистема "безлицензионный доступ"

В отличие от закрытости традиционных корпоративных данных (таких как банковские транзакции и данные пользователей электронной коммерции), данные на блокчейне открыты и не требуют разрешения. Любой разработчик может получить исходные данные через блокчейн-браузер или API данных, что предоставляет "безбарьерный" источник данных для обучения моделей ИИ. Однако такая открытость также создает проблемы: данные на блокчейне существуют в виде "журналов событий" (например, события Transfer ERC-20 в Ethereum, события Swap на биржах), это неструктурированные "исходные сигналы", которые необходимо очистить, стандартизировать и связать, чтобы их можно было использовать в моделях ИИ. В настоящее время "уровень структурированной трансформации" данных на блокчейне составляет менее 5%, и огромное количество высокоценных сигналов теряется среди миллиардов фрагментированных событий.

Hyperdata Network:"Операционная система" для данных на блокчейне

Для решения проблемы фрагментации данных в блокчейне в отрасли был предложен Hyperdata Network — "умная операционная система на блокчейне", разработанная специально для ИИ. Его основная цель — преобразовать разрозненные сигналы блокчейна в структурированные, проверяемые и совместимые с ИИ данные в реальном времени.

Рукопись: Открытые стандарты данных, позволяющие ИИ "понимать" мир блокчейна

Одной из главных проблем данных на блокчейне является "хаос форматов" — различные блокчейны (такие как Ethereum, Solana, Avalanche) имеют разные форматы журналов событий, а структура данных одной и той же версии протокола также может изменяться. Manuscript, как открытый стандарт схемы данных, унифицирует определение и описание данных на блокчейне. Например, он стандартизирует "поведение пользователя при ставке" в структурированные данные, содержащие такие поля, как staker_address, protocol_id, amount, timestamp, reward_token, что обеспечивает возможность AI-моделям "понимать" бизнес-логику данных без необходимости адаптации к различным форматам данных цепочек или протоколов.

Эта стандартизированная ценность заключается в снижении затрат на разработку ИИ. Предположим, что команда хочет обучить "Модель прогнозирования поведения пользователей DeFi"; традиционный способ требует интеграции API нескольких цепочек, таких как Ethereum, Polygon, и написания различных скриптов для их разбора. Однако на основе Manuscript все данные на цепочке уже предварительно обработаны по единому стандарту, разработчики могут напрямую использовать структурированные данные, такие как "Записи о ставках пользователей" и "Записи о предоставлении ликвидности", что значительно сокращает время обучения модели.

Ключевым требованием к данным для AI-моделей является "достоверность" — если обучающие данные были искажены или загрязнены, вывод модели будет совершенно бесполезен. Механизм AVS (Active Validator Set) в Ethereum обеспечивает подлинность данных. AVS является расширяющим компонентом уровня консенсуса Ethereum и состоит из более чем 600000 ETH, заложенных валидаторными узлами, которые отвечают за проверку целостности и точности данных в цепи. При обработке события в цепи узлы AVS перекрестно проверяют хеши данных, информацию о подписи и состояние в цепи, чтобы гарантировать, что структурированные данные, выводимые на выходе, полностью соответствуют оригинальным данным в цепи.

Механизм верификации, основанный на "гарантии криптоэкономики", решает проблему доверия традиционной централизованной верификации данных. Например, если AI компания использует данные на блокчейне, предоставленные централизованным учреждением, ей необходимо доверять, что это учреждение не подделало данные; в то время как при использовании Hyperdata Network, подлинность данных подтверждается децентрализованной сетью проверяющих, и любое искажение данных вызывает штрафные меры со стороны смарт-контракта (например, удержание заложенного ETH).

Высокопроизводительный уровень доступности данных

AI-модели, особенно AI-приложения для реального взаимодействия (например, торговые роботы, интеллектуальные сервисы поддержки), требуют низкой задержки и высокой пропускной способности данных. Оптимизируя алгоритмы сжатия данных и протоколы передачи, можно достичь реальной обработки сотен тысяч событий на блокчейне в секунду. Например, когда на каком-либо DEX происходит крупная сделка, система может за 1 секунду завершить извлечение, стандартизацию и верификацию данных, а также отправить структурированный "сигнал о крупной сделке" подписанным AI-моделям, чтобы они могли своевременно скорректировать свою торговую стратегию.

За высокой пропускной способностью стоит модульная архитектура — разделение хранения данных и вычислений, при этом хранение данных осуществляется распределенной сетью узлов, а вычисления выполняются с помощью оффчейн Rollup, что позволяет избежать узких мест производительности самой блокчейн-системы. Такой дизайн позволяет системе поддерживать требования к реальным данным для масштабных AI-приложений, например, предоставляя онлайн-услуги цепочечных данных для большого числа торговых агентов.

Эпоха DataFi: когда данные становятся" капиталом", который можно торговать

Конечная цель Hyperdata Network состоит в том, чтобы продвинуть AI-индустрию в эпоху DataFi — данные больше не являются пассивным "обучающим материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать его стоимость. Как электроэнергия оценивается в киловаттах, вычислительная мощность оценивается в FLOPS, так и данные должны быть оценены, ранжированы и оценены в стоимости. Реализация этого видения зависит от преобразования данных в четыре ключевых свойства:

Структурированные: от "сырьевых сигналов" до "доступных активов"

Необработанные данные в блокчейне подобны "сырой нефти", которые необходимо переработать, чтобы стать "бензином". Стандартизация позволяет преобразовать их в структурированные данные, например, разбив "адрес кошелька A в момент T внес в протокол B X токенов" на многомерные данные, содержащие пользовательские профили, атрибуты протокола, типы активов и временные метки. Такая структура данных позволяет моделям ИИ непосредственно использовать эти данные, так же просто, как вызывать API.

可组合:данные как "Лего"

В Web3 "комбинируемость" вызвала бум DeFi (например, инновации в комбинации различных протоколов). Применяя эту идею в области данных: структурированные данные можно свободно комбинировать, как конструкторы LEGO. Например, разработчики могут объединить "записи о ставках пользователей" (из протоколов ставок) с "данными о колебаниях цен" (из оракулов), "объемом упоминаний в социальных сетях" (из API социальных платформ), чтобы обучить "модель прогнозирования рыночного настроения DeFi". Эта комбинируемость значительно расширила границы применения данных, позволяя инновациям в AI больше не ограничиваться единственным источником данных.

Проверяемо: "Кредитное обеспечение" данных

Проверенные структурированные данные генерируют уникальный "отпечаток данных" (хеш-значение), которое хранится в блокчейне. Любое ИИ-приложение или разработчик, использующий эти данные, могут подтвердить подлинность данных, проверив хеш-значение. Эта "возможность проверки" придает данным кредитные свойства — например, набор данных, обозначенный как "высококачественный торговый сигнал", может быть отслежен по исторической точности через хеш-записи в блокчейне, пользователю не нужно доверять поставщику набора данных, достаточно проверить отпечаток данных для оценки качества данных.

Мобильность: "монетизация" данных

В эпоху DataFi поставщики данных могут напрямую монетизировать структурированные данные через Hyperdata Network. Например, команда, проанализировавшая данные на блокчейне, разработала "сигналы предупреждения о уязвимостях смарт-контрактов", которые можно упаковать в API-сервис и взимать плату за количество вызовов; обычные пользователи также могут разрешить совместное использование своих анонимизированных данных на блокчейне и получать вознаграждение в виде токенов данных. В экосистеме ценность данных определяется рыночным спросом и предложением — высокоточные торговые сигналы могут иметь более высокую цену, в то время как базовые данные о поведении пользователей могут тарифицироваться за каждое использование.

Заключение: Дата-революция, следующее десятилетие ИИ

Когда мы говорим о будущем ИИ, мы часто сосредотачиваемся на "уровне интеллекта" моделей, забывая о "данных, поддерживающих интеллект". Hyperdata Network раскрывает одну ключевую истину: эволюция ИИ по своей сути является эволюцией инфраструктуры данных. От "ограниченности" данных, создаваемых человеком, до "обнаружения ценности" данных на цепочке, от "беспорядка" фрагментированных сигналов до "упорядоченности" структурированных данных, от "бесплатных ресурсов" данных до "капитальных активов" DataFi, эта новая инфраструктура переосмысляет базовую логику индустрии ИИ.

В эпоху DataFi данные становятся мостом, соединяющим ИИ и реальный мир — торговые агенты воспринимают рыночные настроения через данные на блокчейне, автономные dApp оптимизируют свои услуги на основе данных о поведении пользователей, а обычные пользователи получают постоянный доход через обмен данными. Как сеть электроснабжения вызвала промышленную революцию, вычислительная мощность сети вызвала интернет-революцию, так Hyperdata Network инициирует "революцию данных" для ИИ.

Промежуточные приложения следующего поколения, основанные на ИИ, требуют не только моделей или кошельков, но и данных, которые не требуют доверия, программируемы и имеют высокий сигнал. Когда данные, наконец, получат надлежащую ценность, ИИ сможет действительно высвободить силу, способную изменить мир.

ETH2.18%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Репост
  • Поделиться
комментарий
0/400
ContractCollectorvip
· 08-10 03:27
Не спешите с накруткой данных, сначала посмотрите Спот и контракты.
Посмотреть ОригиналОтветить0
DeFiCaffeinatorvip
· 08-10 01:16
Неужели кто-то действительно верит в эту ловушку капитализации данных?
Посмотреть ОригиналОтветить0
FudVaccinatorvip
· 08-10 01:16
Данные майнеры добываются
Посмотреть ОригиналОтветить0
SchroedingersFrontrunvip
· 08-10 01:12
Ах, как же голодно, я уже голодаю как данные в голоде.
Посмотреть ОригиналОтветить0
  • Закрепить