Opportunités et défis de la fusion de l'IA et du Web3 : une innovation complète de la donnée à la puissance de calcul

AI+Web3 : Tours et places

TL;DR

  1. Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de capitaux sur les marchés primaire et secondaire.

  2. Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner l'offre potentielle dans la longue traîne, à travers les données, le stockage et le calcul ; tout en établissant des modèles open source et un marché décentralisé pour les agents d'IA.

  3. L'IA est principalement utilisée dans l'industrie Web3 pour la finance sur la chaîne (paiements cryptographiques, transactions, analyse de données) et pour assister le développement.

  4. L'utilité de l'IA + Web3 se manifeste dans la complémentarité des deux : Web3 a l'espoir de lutter contre la centralisation de l'IA, tandis que l'IA a l'espoir d'aider Web3 à sortir de son cercle.

AI+Web3 : Tours et places

Introduction

Au cours des deux dernières années, le développement de l'IA a semblé être activé par un bouton d'accélération. Cette vague déclenchée par Chatgpt a non seulement ouvert un nouveau monde de l'intelligence artificielle générative, mais a également provoqué d'énormes vagues dans le domaine du Web3.

Sous l'influence du concept d'IA, le financement du marché de la cryptographie, qui ralentit, a clairement été stimulé. Rien qu'au premier semestre 2024, 64 projets Web3+IA ont complété leur financement, et le système d'exploitation basé sur l'intelligence artificielle Zyber365 a atteint un montant de financement record de 100 millions de dollars lors de sa série A.

Le marché secondaire est plus prospère. Selon les données de Coingecko, en un peu plus d'un an, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume de transactions de près de 8,6 milliards de dollars sur 24 heures. Les avancées en matière de technologies AI apportent des avantages évidents, après la sortie du modèle Sora d'OpenAI pour la conversion de texte en vidéo, le prix moyen du secteur de l'IA a augmenté de 151 %. L'effet IA s'étend également à l'un des segments de collecte de fonds en cryptomonnaies, les Memes : le premier MemeCoin basé sur le concept d'Agent AI - GOAT - est rapidement devenu populaire et a atteint une valorisation de 1,4 milliard de dollars, déclenchant avec succès une frénésie des Memes AI.

Les recherches et les discussions sur l'AI+Web3 sont également très animées, allant de l'AI+Depin à l'AI Memecoin, puis aux Agents AI et à l'AI DAO actuels, la peur de manquer (FOMO) ne parvient clairement pas à suivre la vitesse de rotation des nouveaux récits.

AI+Web3, cette combinaison de termes remplie d'argent facile, de tendances et de fantasmes d'avenir, ne peut manquer d'être perçue comme un mariage arrangé orchestré par le capital. Il semble que nous ayons du mal à discerner si, sous cette magnifique robe, c'est le terrain de jeu des spéculateurs ou la veille de l'explosion de l'aube ?

Pour répondre à cette question, une réflexion clé pour les deux parties est : est-ce que cela s'améliorera avec l'autre ? Peut-on tirer profit des modèles de l'autre ? Dans cet article, nous essayons de nous appuyer sur les travaux des pionniers pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et qu'est-ce que l'IA peut apporter de nouveau au Web3 ?

Part.1 Quelles opportunités Web3 offre-t-il sous la pile AI ?

Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :

Exprimons l'ensemble du processus dans un langage plus simple : le « grand modèle » est comme le cerveau humain. À un stade précoce, ce cerveau appartient à un bébé qui vient de naître et qui doit observer et absorber une énorme quantité d'informations provenant de son environnement pour comprendre ce monde. C'est la phase de « collecte » des données. Étant donné que les ordinateurs n'ont pas les sens humains tels que la vue ou l'ouïe, avant l'entraînement, les vastes informations non étiquetées provenant de l'extérieur doivent être transformées par « prétraitement » en un format d'information que l'ordinateur peut comprendre et utiliser.

Après avoir entré les données, l'IA construit un modèle avec des capacités de compréhension et de prédiction par le biais de l'« entraînement », ce qui peut être considéré comme le processus par lequel un bébé comprend et apprend progressivement le monde extérieur. Les paramètres du modèle sont semblables aux capacités linguistiques que le bébé ajuste continuellement au cours de son apprentissage. Lorsque le contenu appris commence à se spécialiser ou que des échanges avec d'autres personnes fournissent des retours et des corrections, on entre dans la phase de « réglage fin » du grand modèle.

Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et pensées dans de nouvelles conversations. Cette étape est similaire au « raisonnement » des grands modèles d'IA, qui peuvent prédire et analyser de nouvelles entrées de langage et de texte. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leurs capacités linguistiques, ce qui est également similaire à l'application des grands modèles d'IA en phase de raisonnement pour diverses tâches spécifiques après avoir terminé l'entraînement, comme la classification d'images, la reconnaissance vocale, etc.

L'Agent IA se rapproche de la prochaine forme du grand modèle - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de la capacité de réflexion, mais aussi capable de mémoriser, de planifier et d'utiliser des outils pour interagir avec le monde.

Actuellement, en réponse aux points de douleur de l'IA à travers différentes piles, le Web3 a commencé à former un écosystème multi-niveaux et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.

AI+Web3 : Tours et places

Un, couche de base : Airbnb de la puissance de calcul et des données

Puissance de calcul

Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer des modèles.

Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100 GPU produits par NVIDIA (qui est une unité de traitement graphique de premier plan conçue pour l'intelligence artificielle et les charges de travail de calcul haute performance) pendant 30 jours pour terminer l'entraînement. Le prix unitaire de la version 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel informatique de 400 à 700 millions de dollars (GPU + puces réseau), tandis que l'entraînement mensuel nécessite 1,6 milliard de kilowattheures et les dépenses énergétiques atteignent près de 20 millions de dollars par mois.

La décompression de la puissance de calcul de l'IA est également l'un des premiers domaines où Web3 croise l'IA - DePin (réseau d'infrastructure physique décentralisée). Actuellement, le site de données DePin Ninja a déjà répertorié plus de 1400 projets, parmi lesquels des projets représentatifs de partage de puissance GPU incluent io.net, Aethir, Akash, Render Network, etc.

La logique principale réside dans le fait que la plateforme permet aux individus ou entités possédant des ressources GPU inactives de contribuer à leur puissance de calcul de manière décentralisée et sans autorisation, à travers un marché en ligne similaire à Uber ou Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées. Les utilisateurs finaux bénéficient également de ressources de calcul efficaces à moindre coût. Parallèlement, le mécanisme de staking garantit que si des violations des mécanismes de contrôle de la qualité ou des interruptions du réseau se produisent, les fournisseurs de ressources subissent des sanctions appropriées.

Ses caractéristiques sont :

  • Rassembler des ressources GPU inactives : les fournisseurs sont principalement des centres de données indépendants de taille moyenne et petite, des opérateurs de surplus de puissance de calcul de mines de cryptomonnaies, ainsi que des matériels de minage dont le mécanisme de consensus est PoS, comme les mineurs de FileCoin et d'ETH. Actuellement, des projets s'efforcent également de lancer des équipements à seuil d'entrée plus bas, tels qu'exolab qui utilise des appareils locaux comme MacBook, iPhone, iPad pour établir un réseau de puissance de calcul pour le raisonnement de grands modèles.

  • Faire face au marché long tail de la puissance de calcul AI :

a. "D'un point de vue technique", le marché de la puissance décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage de la capacité de traitement des données apportée par des clusters GPU de très grande taille, tandis que l'inférence nécessite des performances de calcul GPU relativement faibles, comme Aethir qui se concentre sur les travaux de rendu à faible latence et les applications d'inférence AI.

b. Du côté de la demande, les petits et moyens acteurs de la puissance de calcul ne formeront pas leur propre grand modèle, mais choisiront plutôt d'optimiser et de peaufiner autour de quelques grands modèles leaders, et ces scénarios sont naturellement adaptés aux ressources de puissance de calcul distribuées et inactives.

  • Propriété décentralisée : la signification technique de la blockchain réside dans le fait que les propriétaires de ressources conservent toujours leur contrôle sur celles-ci, ajustant de manière flexible en fonction de la demande tout en générant des revenus.

Données

Les données sont le fondement de l'IA. Sans données, le calcul est aussi inutile qu'une algue flottante, et la relation entre les données et le modèle est semblable à l'adage "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de la sortie du modèle final. En ce qui concerne l'entraînement des modèles d'IA actuels, les données déterminent les capacités linguistiques du modèle, sa capacité de compréhension, et même ses valeurs ainsi que ses performances humanisées. Actuellement, les difficultés de demande en données de l'IA se concentrent principalement sur les quatre aspects suivants :

  • Soif de données : l'entraînement des modèles d'IA dépend d'un grand volume de données d'entrée. Les données publiques montrent que le nombre de paramètres pour l'entraînement de GPT-4 par OpenAI a atteint des niveaux de trillions.

  • Qualité des données : Avec la combinaison de l'IA et des différents secteurs, la pertinence temporelle des données, la diversité des données, le professionnalisme des données sectorielles, ainsi que l'intégration de nouvelles sources de données comme les émotions des réseaux sociaux, ont également posé de nouvelles exigences sur leur qualité.

  • Problèmes de confidentialité et de conformité : Actuellement, les pays et les entreprises prennent progressivement conscience de l'importance des ensembles de données de qualité et imposent des restrictions sur le scraping des ensembles de données.

  • Coût élevé du traitement des données : le volume de données est important et le processus de traitement est complexe. Les données publiques montrent que plus de 30 % des coûts de R&D des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.

Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :

  1. Collecte de données : La disponibilité des données du monde réel collectées gratuitement s'épuise rapidement, et les dépenses des entreprises d'IA pour les données augmentent chaque année. Cependant, en même temps, ces dépenses ne profitent pas aux véritables contributeurs des données, les plateformes profitent entièrement de la valeur créée par les données.

Permettre aux utilisateurs qui contribuent réellement de participer à la création de valeur apportée par les données, ainsi que d'obtenir des données plus privées et de plus grande valeur à moindre coût grâce à un réseau distribué et à des mécanismes d'incitation, est la vision du Web3.

  • Grass est une couche de données et un réseau décentralisés, permettant aux utilisateurs de faire fonctionner des nœuds Grass, de contribuer à la bande passante inutilisée et au trafic de relais afin de capturer des données en temps réel sur l'ensemble d'Internet, et de recevoir des récompenses en tokens ;

  • Vana a introduit un concept unique de pool de liquidité de données (DLP), permettant aux utilisateurs de télécharger leurs données privées (telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc.) vers un DLP spécifique, et de choisir de manière flexible s'ils souhaitent autoriser des tiers spécifiques à utiliser ces données ;

  • Dans PublicAI, les utilisateurs peuvent utiliser #AI或#Web3 comme étiquette de classification sur X et @PublicAI pour collecter des données.

  1. Prétraitement des données : Dans le processus de traitement des données par l'IA, les données collectées sont souvent bruyantes et contiennent des erreurs. Avant d'entraîner le modèle, elles doivent être nettoyées et converties en un format utilisable, ce qui implique des tâches répétitives de normalisation, de filtrage et de traitement des valeurs manquantes. Cette étape est l'un des rares moments où l'intervention humaine est nécessaire dans l'industrie de l'IA, donnant naissance à la profession de labelleur de données. Avec l'augmentation des exigences de qualité des données par les modèles, le seuil d'entrée pour les labelleurs de données a également augmenté, et cette tâche est naturellement adaptée au mécanisme d'incitation décentralisé de Web3.
  • Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer cette étape clé de l'annotation des données.

  • Synesis a introduit le concept de « Train2earn », mettant l'accent sur la qualité des données, les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.

  • Le projet de marquage de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner plus.

  1. Confidentialité et sécurité des données : Il est nécessaire de clarifier que la confidentialité des données et la sécurité des données sont deux concepts différents. La confidentialité des données concerne le traitement des données sensibles, tandis que la sécurité des données protège les informations contre l'accès, la destruction et le vol non autorisés. Ainsi, les avantages des technologies de confidentialité Web3 et leurs applications potentielles se manifestent sous deux aspects : (1) l'entraînement des données sensibles ; (2) la collaboration des données : plusieurs propriétaires de données peuvent participer ensemble à l'entraînement de l'IA sans avoir à partager leurs données brutes.

Les technologies de confidentialité les plus courantes dans Web3 sont :

  • Environnement d'exécution de confiance ( TEE ), comme Super Protocol ;

  • Chiffrement homomorphe complet (FHE), par exemple BasedAI, Fhenix.io ou Inco Network ;

  • La technologie des preuves à divulgation nulle de connaissance (zk), comme le protocole Reclaim qui utilise la technologie zkTLS, génère des preuves à divulgation nulle de connaissance pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des activités, des réputations et des données d'identité depuis des sites externes, sans exposer d'informations sensibles.

Cependant, ce domaine est encore à un stade précoce, la plupart des projets sont encore en exploration. Un des dilemmes actuels est que le coût de calcul est trop élevé, voici quelques exemples :

  • Le cadre zkML EZKL nécessite environ 80 minutes pour générer une preuve d'un modèle 1M-nanoGPT.

  • Selon les données de Modulus Labs, les coûts de zkML sont plus de 1000 fois supérieurs à ceux du calcul pur.

  1. Stockage des données : Une fois les données obtenues, il faut également un endroit pour stocker les données sur la chaîne, ainsi que le LLM généré à partir de ces données. En se concentrant sur la disponibilité des données (DA), avant la mise à niveau Danksharding d'Ethereum, son débit était de 0,08 Mo. Pendant ce temps, l'entraînement des modèles d'IA et l'inférence en temps réel nécessitent généralement un débit de données de 50 à 100 Go par seconde. Cet écart d'ordre de grandeur rend les solutions existantes sur la chaîne incapables de faire face à "des applications d'IA gourmandes en ressources".
  • 0g.AI est un projet représentatif de cette catégorie. Il s'agit d'une solution de stockage centralisée conçue pour répondre aux besoins de haute performance de l'IA, son lien
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Reposter
  • Partager
Commentaire
0/400
RektCoastervip
· Il y a 17h
Ne parlez plus de concepts... commencez par créer une application concrète.
Voir l'originalRépondre0
degenonymousvip
· Il y a 17h
prendre les gens pour des idiots des pigeons peuvent parler d'idéal.
Voir l'originalRépondre0
not_your_keysvip
· Il y a 17h
Encore en train de réchauffer des restes, se faire prendre pour des cons.
Voir l'originalRépondre0
MidsommarWalletvip
· Il y a 17h
J'attends avec impatience de voir l'IA propulser le web3.
Voir l'originalRépondre0
ConfusedWhalevip
· Il y a 17h
Je ne comprends pas, je ne sais pas de quoi il s'agit.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)