مشاريع Web3 ذات مفهوم الذكاء الاصطناعي أصبحت أهداف جذب الأموال في السوقين الأول والثاني.
تتمثل الفرص في Web3 في صناعة الذكاء الاصطناعي في: استخدام الحوافز الموزعة لتنسيق العرض المحتمل في الذيل الطويل، عبر البيانات والتخزين والحوسبة؛ في الوقت نفسه، إنشاء نماذج مفتوحة المصدر بالإضافة إلى سوق لامركزي لوكلاء الذكاء الاصطناعي.
يستخدم الذكاء الاصطناعي بشكل رئيسي في صناعة Web3 للتمويل على السلسلة (الدفع المشفر، التداول، تحليل البيانات) وكذلك للمساعدة في التطوير.
تظهر فائدة AI+Web3 في التكامل بين الاثنين: من المتوقع أن يتصدى Web3 لتركيز AI، ومن المتوقع أن يساعد AI Web3 في كسر الحواجز.
في العامين الماضيين، تطور الذكاء الاصطناعي كما لو تم الضغط على زر التسريع. هذه الموجة التي أطلقها Chatgpt لم تفتح فقط عالماً جديداً للذكاء الاصطناعي التوليدي، بل أحدثت أيضاً ضجة كبيرة في مجال Web3.
بفضل مفهوم الذكاء الاصطناعي، شهدت تمويلات سوق العملات المشفرة تباطؤًا ملحوظًا. فقط في النصف الأول من عام 2024، أكمل 64 مشروعًا في Web3+AI تمويلاتهم، حيث حقق نظام التشغيل المعتمد على الذكاء الاصطناعي Zyber365 في الجولة A أعلى مبلغ تمويل قدره 100 مليون دولار.
سوق ثانوي أكثر ازدهارًا، تظهر بيانات Coingecko أن القيمة السوقية الإجمالية لمجال الذكاء الاصطناعي قد وصلت إلى 48.5 مليار دولار خلال فترة زمنية قصيرة تزيد عن عام، وحجم التداول خلال 24 ساعة اقترب من 8.6 مليار دولار. من الواضح أن التقدم في تقنيات الذكاء الاصطناعي قد جلب فوائد ملحوظة، حيث ارتفع متوسط سعر قطاع الذكاء الاصطناعي بنسبة 151% بعد إصدار نموذج Sora لتحويل النص إلى فيديو من OpenAI. كما أن تأثير الذكاء الاصطناعي يمتد أيضًا إلى أحد قطاعات العملات المشفرة الجاذبة للأموال، وهو Meme: حيث حقق أول مفهوم لوكيل الذكاء الاصطناعي، وهو عملة MemeCoin - GOAT، شهرة بسرعة وحقق تقييمًا بلغ 1.4 مليار دولار، مما أطلق بنجاح موجة من Meme الذكاء الاصطناعي.
تُعتبر الأبحاث والمواضيع المتعلقة بـ AI + Web3 أيضًا مثيرة للغاية، من AI + Depin إلى AI Memecoin وصولًا إلى AI Agent و AI DAO الحالية، لقد أصبح شعور FOMO غير قادر على مواكبة سرعة تبديل السرد الجديد.
AI+Web3، هذا التركيب الذي يمتلئ بالمال الساخن، والفرص الحماسية، وأحلام المستقبل، لا مفر من أن يُنظر إليه كزواج مُرتب بواسطة رأس المال. يبدو أنه من الصعب علينا التمييز تحت هذا الرداء الفاخر، هل هو ساحة المُضاربين، أم هو فجر الانفجار المنتظر؟
للإجابة على هذا السؤال، فإن أحد التأملات الأساسية لكلا الطرفين هو: هل سيكون الوضع أفضل مع الطرف الآخر؟ هل يمكن الاستفادة من نموذج الآخر؟ في هذه المقالة، نحاول النظر إلى هذا النمط من منظور أولئك الذين سبقونا: كيف يمكن أن تلعب Web3 دورًا في مختلف مراحل تقنية AI، وما الذي يمكن أن تقدمه AI لـ Web3 من حيوية جديدة؟
الجزء 1 ما هي الفرص المتاحة لـ Web3 تحت كومة الذكاء الاصطناعي؟
قبل الخوض في هذا الموضوع، بحاجة إلى فهم كومة التكنولوجيا للنموذج الكبير للذكاء الاصطناعي:
استخدم لغة أبسط للتعبير عن العملية بأكملها: "النموذج الكبير" يشبه دماغ الإنسان، في المرحلة المبكرة، ينتمي هذا الدماغ إلى طفل حديث الولادة، يحتاج إلى مراقبة واستيعاب كميات هائلة من المعلومات من العالم من حوله لفهم هذا العالم، وهذه هي مرحلة "جمع البيانات". نظرًا لأن الكمبيوتر لا يمتلك حواس الإنسان مثل البصر والسمع، قبل التدريب، يجب تحويل المعلومات الضخمة غير الموصوفة من الخارج إلى تنسيق معلومات يمكن للكمبيوتر فهمه واستخدامه من خلال "المعالجة المسبقة".
بعد إدخال البيانات، يقوم الذكاء الاصطناعي من خلال "التدريب" ببناء نموذج يمتلك القدرة على الفهم والتنبؤ، ويمكن اعتباره كعملية فهم وتعلم الطفل للعالم الخارجي تدريجياً، حيث تعتبر معلمات النموذج مثل القدرة اللغوية التي تتعدل باستمرار خلال عملية تعلم الطفل. عندما يبدأ المحتوى التعليمي في التخصص، أو عندما يتواصل مع الآخرين ويتلقى تعليقات ويقوم بإجراء تصحيحات، فإنه يدخل مرحلة "الضبط الدقيق" للنموذج الكبير.
عندما يكبر الأطفال تدريجياً ويتعلمون الكلام، يمكنهم فهم المعاني والتعبير عن مشاعرهم وأفكارهم في محادثات جديدة، وتكون هذه المرحلة مشابهة لـ "الاستدلال" في نماذج الذكاء الاصطناعي الكبيرة، حيث يمكن للنموذج التنبؤ وتحليل المدخلات الجديدة من اللغة والنصوص. يعبر الأطفال عن مشاعرهم وقدراتهم اللغوية، يصفون الأشياء ويحلون مجموعة متنوعة من المشكلات، وهذا يشبه أيضًا كيفية تطبيق نماذج الذكاء الاصطناعي الكبيرة بعد إتمام التدريب في مرحلة الاستدلال على أنواع معينة من المهام، مثل تصنيف الصور والتعرف على الصوت.
أما وكيل الذكاء الاصطناعي فإنه يقترب أكثر من الشكل التالي للنماذج الكبيرة - القدرة على تنفيذ المهام بشكل مستقل والسعي لتحقيق أهداف معقدة، لا يمتلك فقط القدرة على التفكير، بل أيضًا على التذكر، والتخطيط، والقدرة على استخدام الأدوات للتفاعل مع العالم.
في الوقت الحالي، وبالنظر إلى نقاط الألم المتعلقة بالذكاء الاصطناعي في مختلف الطبقات، فقد شكلت Web3 حتى الآن نظامًا إيكولوجيًا متعدد الطبقات ومترابطًا، يغطي جميع مراحل عملية نموذج الذكاء الاصطناعي.
واحد، الطبقة الأساسية: Airbnb للقوة الحاسوبية والبيانات
قوة الحوسبة
حاليًا، أحد أعلى التكاليف في الذكاء الاصطناعي هو قوة الحوسبة والطاقة المطلوبة لتدريب النماذج ونماذج الاستدلال.
مثال على ذلك هو أن LLAMA3 من Meta يحتاج إلى 16000 وحدة معالجة رسومات H100 من إنتاج NVIDIA (وهي وحدة معالجة رسومات رائدة مصممة خصيصًا لأعباء العمل في الذكاء الاصطناعي والحوسبة عالية الأداء) لتكمل التدريب خلال 30 يومًا. سعر النسخة 80 جيجابايت يتراوح بين 30000 إلى 40000 دولار، مما يتطلب استثمارًا في الأجهزة الحاسوبية يتراوح بين 400 إلى 700 مليون دولار (وحدات معالجة الرسومات + شرائح الشبكة)، وفي الوقت نفسه، يتطلب التدريب الشهري استهلاك 1.6 مليار كيلووات ساعة، مما يجعل النفقات الطاقية تصل إلى حوالي 20 مليون دولار شهريًا.
بالنسبة لفك ضغط قوة الحوسبة للذكاء الاصطناعي، فإنها تمثل أيضاً أحد المجالات الأولى التي تتقاطع فيها Web3 مع الذكاء الاصطناعي - DePin (شبكة البنية التحتية المادية اللامركزية). حالياً، قامت منصة بيانات DePin Ninja بعرض أكثر من 1400 مشروع، ومن بين المشاريع الرائدة في مشاركة قوة GPU تشمل io.net و Aethir و Akash و Render Network وغيرها.
تتمثل المنطق الرئيسي في: السماح للأفراد أو الكيانات التي تمتلك موارد GPU غير المستغلة بالمساهمة في قدرتها الحاسوبية بطريقة لامركزية دون الحاجة إلى إذن، من خلال سوق على الإنترنت بين المشترين والبائعين مشابهة لـ Uber أو Airbnb، مما يزيد من معدل استخدام موارد GPU غير المستغلة بشكل كاف، وبالتالي يحصل المستخدمون النهائيون على موارد حسابية فعالة بتكلفة أقل؛ في الوقت نفسه، تضمن آلية الرهن أنه في حال حدوث انتهاكات لآلية مراقبة الجودة أو انقطاع الشبكة، يتم فرض العقوبات المناسبة على مزودي الموارد.
تتميز بما يلي:
تجميع موارد GPU غير المستخدمة: يتمثل الموردون أساسًا في مراكز البيانات المستقلة الصغيرة والمتوسطة من الطرف الثالث، ومشغلي تعدين العملات المشفرة الذين يملكون فائضًا من موارد الحوسبة، والأجهزة المستخدمة في التعدين التي تعتمد على آلية توافق الآراء PoS، مثل أجهزة تعدين FileCoin وETH. حاليًا، هناك أيضًا مشاريع تهدف إلى بدء تشغيل أجهزة ذات عتبة دخول أقل، مثل exolab التي تستخدم MacBook وiPhone وiPad كأجهزة محلية لإنشاء شبكة حوسبة لتشغيل استدلال النماذج الكبيرة.
مواجهة سوق الذيل الطويل لقدرات الذكاء الاصطناعي:
أ. "من حيث الجانب التكنولوجي" يعتبر سوق القوة الحوسبية اللامركزية أكثر ملاءمة لخطوات الاستدلال. التدريب يعتمد بشكل أكبر على قدرة معالجة البيانات التي توفرها وحدات معالجة الرسوميات (GPU) ذات التجمعات الكبيرة جداً، بينما الاستدلال يتطلب أداءً أقل نسبياً لوحدات معالجة الرسوميات، مثل تركيز Aethir على أعمال العرض ذات الكمون المنخفض وتطبيقات الاستدلال بالذكاء الاصطناعي.
ب. "من جهة الطلب"، لن يقوم أصحاب القوة الحاسوبية المتوسطة والصغيرة بتدريب نماذجهم الكبيرة بشكل منفصل، بل سيختارون فقط تحسين وتعديل حول عدد قليل من النماذج الكبيرة الرائدة، وهذه السيناريوهات تتناسب تمامًا مع موارد القوة الحاسوبية الموزعة غير المستخدمة.
الملكية اللامركزية: المعنى التكنولوجي للبلوك تشين هو أن مالكي الموارد يحتفظون دائماً بسلطة التحكم في مواردهم، ويقومون بتعديلها بشكل مرن وفقًا للاحتياجات، وفي نفس الوقت يحصلون على العوائد.
البيانات
البيانات هي أساس الذكاء الاصطناعي. إذا لم توجد بيانات، فإن الحساب سيكون عديم الفائدة مثل الطفو على سطح الماء، وعلاقة البيانات بالنموذج تشبه المثل الشائع "قمامة في، قمامة خارج"، حيث تحدد كمية البيانات وجودة المدخلات جودة مخرجات النموذج النهائي. بالنسبة لتدريب نماذج الذكاء الاصطناعي الحالية، تحدد البيانات قدرة النموذج على اللغة، وفهمه، وحتى قيمه وأدائه الإنساني. في الوقت الحالي، تركز صعوبات طلب البيانات في الذكاء الاصطناعي بشكل أساسي على الجوانب الأربعة التالية:
جوع البيانات: تعتمد نماذج الذكاء الاصطناعي في التدريب على كميات كبيرة من بيانات الإدخال. تظهر المعلومات العامة أن OpenAI قد قامت بتدريب GPT-4 مع عدد من المعلمات بلغ تريليونات.
جودة البيانات: مع دمج الذكاء الاصطناعي في مختلف الصناعات، تطرح الجدول الزمني للبيانات، تنوع البيانات، تخصص البيانات القطاعية، ومصادر البيانات الناشئة مثل استيعاب المشاعر من وسائل التواصل الاجتماعي متطلبات جديدة لجودتها.
مشاكل الخصوصية والامتثال: بدأت الدول والشركات المختلفة في إدراك أهمية مجموعات البيانات عالية الجودة، وتقوم بتقييد عملية جمع البيانات.
تكلفة معالجة البيانات مرتفعة: حجم البيانات كبير، وعملية المعالجة معقدة. تظهر المعلومات العامة أن أكثر من 30% من تكلفة البحث والتطوير في شركات الذكاء الاصطناعي تُستخدم لجمع البيانات الأساسية ومعالجتها.
حالياً، تظهر حلول web3 في الجوانب الأربعة التالية:
جمع البيانات: إن توفير بيانات العالم الحقيقي التي يمكن جمعها مجانًا ينفد بسرعة، وتزداد نفقات الشركات العاملة في مجال الذكاء الاصطناعي على البيانات عامًا بعد عام. ولكن في الوقت نفسه، لم تعكس هذه النفقات العائد الحقيقي لمساهمي البيانات، حيث تستفيد المنصات بالكامل من القيمة التي تخلقها البيانات.
تتمثل رؤية Web3 في السماح للمستخدمين الذين يساهمون بالفعل بالمشاركة في إنشاء القيمة الناتجة عن البيانات، وكذلك الحصول على بيانات أكثر خصوصية وقيمة بتكلفة منخفضة من خلال الشبكة الموزعة وآليات الحوافز.
Grass هو طبقة بيانات وشبكة لامركزية، يمكن للمستخدمين من خلالها تشغيل عقد Grass، والمساهمة في النطاق الترددي الفائض وتدفق البيانات لإلتقاط البيانات الحية من جميع أنحاء الإنترنت، والحصول على مكافآت رمزية؛
Vana قد قدمت مفهوم فريد من نوعه لبركة سيولة البيانات (DLP) حيث يمكن للمستخدمين رفع بياناتهم الخاصة (مثل سجلات الشراء، عادات التصفح، أنشطة وسائل التواصل الاجتماعي، إلخ) إلى DLP محدد، واختيار ما إذا كانوا يرغبون في منح إذن باستخدام هذه البيانات لطرف ثالث معين؛
في PublicAI، يمكن للمستخدمين استخدام #AI或#Web3 كعلامة تصنيف على X و @PublicAI لجمع البيانات.
2، معالجة البيانات: في عملية معالجة البيانات للذكاء الاصطناعي، نظرًا لأن البيانات التي تم جمعها عادة ما تكون مشوشة وتتضمن أخطاء، يجب تنظيفها وتحويلها إلى تنسيق قابل للاستخدام قبل تدريب النموذج، مما يتضمن مهام متكررة مثل المعايير، والتصفية، ومعالجة القيم المفقودة. هذه المرحلة هي واحدة من القلائل من المراحل اليدوية في صناعة الذكاء الاصطناعي، وقد نشأت منها صناعة معلمي البيانات. مع زيادة متطلبات جودة البيانات من النماذج، زادت أيضًا عتبة دخول معلمي البيانات، وهذه المهمة مناسبة تمامًا لآلية التحفيز اللامركزية في Web3.
حالياً، تفكر Grass و OpenLayer في الانضمام إلى هذه المرحلة الحاسمة من تصنيف البيانات.
قدمت Synesis مفهوم "Train2earn"، مشددة على جودة البيانات، حيث يمكن للمستخدمين الحصول على مكافآت من خلال تقديم بيانات موسومة، تعليقات أو أشكال أخرى من المدخلات.
مشروع وسم البيانات Sapien يقوم بتحويل مهام الوسم إلى لعبة، ويتيح للمستخدمين رهن النقاط لكسب المزيد من النقاط.
3، خصوصية البيانات والأمان: يجب توضيح أن خصوصية البيانات والأمان هما مفهومين مختلفين. تتعلق خصوصية البيانات بمعالجة البيانات الحساسة، بينما يحمي الأمان المعلومات من الوصول غير المصرح به أو التدمير أو السرقة. وبالتالي، فإن مزايا تقنيات الخصوصية في Web3 وتطبيقاتها المحتملة تظهر في جانبين: (1) تدريب البيانات الحساسة؛ (2) التعاون في البيانات: يمكن لمالكي البيانات المتعددين المشاركة معًا في تدريب الذكاء الاصطناعي دون الحاجة إلى مشاركة بياناتهم الأصلية.
تشمل تقنيات الخصوصية الشائعة في Web3 الحالية:
البيئة التنفيذية الموثوقة ( TEE )، مثل بروتوكول سوبر؛
التشفير المتجانس تمامًا (FHE)، مثل BasedAI، Fhenix.io أو Inco Network؛
تقنية المعرفة الصفرية (zk)، مثل بروتوكول Reclaim الذي يستخدم تقنية zkTLS، تولد إثباتات المعرفة الصفرية لحركة مرور HTTPS، مما يسمح للمستخدمين باستيراد الأنشطة والسمعة وبيانات الهوية من مواقع الويب الخارجية بأمان، دون الكشف عن المعلومات الحساسة.
ومع ذلك، لا يزال هذا المجال في مراحله المبكرة، حيث لا يزال معظم المشاريع في مرحلة الاستكشاف، ومن الصعوبات الحالية هي ارتفاع تكاليف الحوسبة، ومن الأمثلة على ذلك:
يحتاج إطار zkML EZKL إلى حوالي 80 دقيقة لإنشاء دليل لنموذج 1M-nanoGPT.
وفقًا لبيانات Modulus Labs، فإن تكلفة zkML أعلى بأكثر من 1000 مرة من الحسابات البحتة.
تخزين البيانات: بعد الحصول على البيانات، نحتاج أيضًا إلى مكان لتخزين البيانات على السلسلة، بالإضافة إلى LLM الناتج عن تلك البيانات. مع وجود مشكلة توفر البيانات (DA) في القلب، كانت قدرة التحميل 0.08MB قبل ترقية Danksharding في الإيثيريوم. في الوقت نفسه، يتطلب تدريب نماذج الذكاء الاصطناعي واستنتاجها في الوقت الحقيقي عادةً من 50 إلى 100 جيجابايت من قدرة التحميل في الثانية. هذا الفارق الهائل يجعل الحلول الحالية على السلسلة غير قادرة على مواجهة "تطبيقات الذكاء الاصطناعي كثيفة الموارد".
0g.AI هو المشروع الرائد في هذه الفئة. إنه حل تخزين مركزي مصمم لتلبية احتياجات الأداء العالي في الذكاء الاصطناعي، مما يضمن.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 12
أعجبني
12
5
إعادة النشر
مشاركة
تعليق
0/400
RektCoaster
· منذ 17 س
لا تتحدث عن المفاهيم... ابدأ بتطوير تطبيق يمكن أن يكون له تأثير فعلي.
فرص وتحديات دمج الذكاء الاصطناعي مع Web3: من البيانات إلى قوة الحوسبة في الابتكار الكامل
AI+Web3: الأبراج والساحات
TL; د
مشاريع Web3 ذات مفهوم الذكاء الاصطناعي أصبحت أهداف جذب الأموال في السوقين الأول والثاني.
تتمثل الفرص في Web3 في صناعة الذكاء الاصطناعي في: استخدام الحوافز الموزعة لتنسيق العرض المحتمل في الذيل الطويل، عبر البيانات والتخزين والحوسبة؛ في الوقت نفسه، إنشاء نماذج مفتوحة المصدر بالإضافة إلى سوق لامركزي لوكلاء الذكاء الاصطناعي.
يستخدم الذكاء الاصطناعي بشكل رئيسي في صناعة Web3 للتمويل على السلسلة (الدفع المشفر، التداول، تحليل البيانات) وكذلك للمساعدة في التطوير.
تظهر فائدة AI+Web3 في التكامل بين الاثنين: من المتوقع أن يتصدى Web3 لتركيز AI، ومن المتوقع أن يساعد AI Web3 في كسر الحواجز.
! الذكاء الاصطناعي+Web3: الأبراج والساحات
المقدمة
في العامين الماضيين، تطور الذكاء الاصطناعي كما لو تم الضغط على زر التسريع. هذه الموجة التي أطلقها Chatgpt لم تفتح فقط عالماً جديداً للذكاء الاصطناعي التوليدي، بل أحدثت أيضاً ضجة كبيرة في مجال Web3.
بفضل مفهوم الذكاء الاصطناعي، شهدت تمويلات سوق العملات المشفرة تباطؤًا ملحوظًا. فقط في النصف الأول من عام 2024، أكمل 64 مشروعًا في Web3+AI تمويلاتهم، حيث حقق نظام التشغيل المعتمد على الذكاء الاصطناعي Zyber365 في الجولة A أعلى مبلغ تمويل قدره 100 مليون دولار.
سوق ثانوي أكثر ازدهارًا، تظهر بيانات Coingecko أن القيمة السوقية الإجمالية لمجال الذكاء الاصطناعي قد وصلت إلى 48.5 مليار دولار خلال فترة زمنية قصيرة تزيد عن عام، وحجم التداول خلال 24 ساعة اقترب من 8.6 مليار دولار. من الواضح أن التقدم في تقنيات الذكاء الاصطناعي قد جلب فوائد ملحوظة، حيث ارتفع متوسط سعر قطاع الذكاء الاصطناعي بنسبة 151% بعد إصدار نموذج Sora لتحويل النص إلى فيديو من OpenAI. كما أن تأثير الذكاء الاصطناعي يمتد أيضًا إلى أحد قطاعات العملات المشفرة الجاذبة للأموال، وهو Meme: حيث حقق أول مفهوم لوكيل الذكاء الاصطناعي، وهو عملة MemeCoin - GOAT، شهرة بسرعة وحقق تقييمًا بلغ 1.4 مليار دولار، مما أطلق بنجاح موجة من Meme الذكاء الاصطناعي.
تُعتبر الأبحاث والمواضيع المتعلقة بـ AI + Web3 أيضًا مثيرة للغاية، من AI + Depin إلى AI Memecoin وصولًا إلى AI Agent و AI DAO الحالية، لقد أصبح شعور FOMO غير قادر على مواكبة سرعة تبديل السرد الجديد.
AI+Web3، هذا التركيب الذي يمتلئ بالمال الساخن، والفرص الحماسية، وأحلام المستقبل، لا مفر من أن يُنظر إليه كزواج مُرتب بواسطة رأس المال. يبدو أنه من الصعب علينا التمييز تحت هذا الرداء الفاخر، هل هو ساحة المُضاربين، أم هو فجر الانفجار المنتظر؟
للإجابة على هذا السؤال، فإن أحد التأملات الأساسية لكلا الطرفين هو: هل سيكون الوضع أفضل مع الطرف الآخر؟ هل يمكن الاستفادة من نموذج الآخر؟ في هذه المقالة، نحاول النظر إلى هذا النمط من منظور أولئك الذين سبقونا: كيف يمكن أن تلعب Web3 دورًا في مختلف مراحل تقنية AI، وما الذي يمكن أن تقدمه AI لـ Web3 من حيوية جديدة؟
الجزء 1 ما هي الفرص المتاحة لـ Web3 تحت كومة الذكاء الاصطناعي؟
قبل الخوض في هذا الموضوع، بحاجة إلى فهم كومة التكنولوجيا للنموذج الكبير للذكاء الاصطناعي:
استخدم لغة أبسط للتعبير عن العملية بأكملها: "النموذج الكبير" يشبه دماغ الإنسان، في المرحلة المبكرة، ينتمي هذا الدماغ إلى طفل حديث الولادة، يحتاج إلى مراقبة واستيعاب كميات هائلة من المعلومات من العالم من حوله لفهم هذا العالم، وهذه هي مرحلة "جمع البيانات". نظرًا لأن الكمبيوتر لا يمتلك حواس الإنسان مثل البصر والسمع، قبل التدريب، يجب تحويل المعلومات الضخمة غير الموصوفة من الخارج إلى تنسيق معلومات يمكن للكمبيوتر فهمه واستخدامه من خلال "المعالجة المسبقة".
بعد إدخال البيانات، يقوم الذكاء الاصطناعي من خلال "التدريب" ببناء نموذج يمتلك القدرة على الفهم والتنبؤ، ويمكن اعتباره كعملية فهم وتعلم الطفل للعالم الخارجي تدريجياً، حيث تعتبر معلمات النموذج مثل القدرة اللغوية التي تتعدل باستمرار خلال عملية تعلم الطفل. عندما يبدأ المحتوى التعليمي في التخصص، أو عندما يتواصل مع الآخرين ويتلقى تعليقات ويقوم بإجراء تصحيحات، فإنه يدخل مرحلة "الضبط الدقيق" للنموذج الكبير.
عندما يكبر الأطفال تدريجياً ويتعلمون الكلام، يمكنهم فهم المعاني والتعبير عن مشاعرهم وأفكارهم في محادثات جديدة، وتكون هذه المرحلة مشابهة لـ "الاستدلال" في نماذج الذكاء الاصطناعي الكبيرة، حيث يمكن للنموذج التنبؤ وتحليل المدخلات الجديدة من اللغة والنصوص. يعبر الأطفال عن مشاعرهم وقدراتهم اللغوية، يصفون الأشياء ويحلون مجموعة متنوعة من المشكلات، وهذا يشبه أيضًا كيفية تطبيق نماذج الذكاء الاصطناعي الكبيرة بعد إتمام التدريب في مرحلة الاستدلال على أنواع معينة من المهام، مثل تصنيف الصور والتعرف على الصوت.
أما وكيل الذكاء الاصطناعي فإنه يقترب أكثر من الشكل التالي للنماذج الكبيرة - القدرة على تنفيذ المهام بشكل مستقل والسعي لتحقيق أهداف معقدة، لا يمتلك فقط القدرة على التفكير، بل أيضًا على التذكر، والتخطيط، والقدرة على استخدام الأدوات للتفاعل مع العالم.
في الوقت الحالي، وبالنظر إلى نقاط الألم المتعلقة بالذكاء الاصطناعي في مختلف الطبقات، فقد شكلت Web3 حتى الآن نظامًا إيكولوجيًا متعدد الطبقات ومترابطًا، يغطي جميع مراحل عملية نموذج الذكاء الاصطناعي.
! الذكاء الاصطناعي+Web3: الأبراج والمربعات
واحد، الطبقة الأساسية: Airbnb للقوة الحاسوبية والبيانات
قوة الحوسبة
حاليًا، أحد أعلى التكاليف في الذكاء الاصطناعي هو قوة الحوسبة والطاقة المطلوبة لتدريب النماذج ونماذج الاستدلال.
مثال على ذلك هو أن LLAMA3 من Meta يحتاج إلى 16000 وحدة معالجة رسومات H100 من إنتاج NVIDIA (وهي وحدة معالجة رسومات رائدة مصممة خصيصًا لأعباء العمل في الذكاء الاصطناعي والحوسبة عالية الأداء) لتكمل التدريب خلال 30 يومًا. سعر النسخة 80 جيجابايت يتراوح بين 30000 إلى 40000 دولار، مما يتطلب استثمارًا في الأجهزة الحاسوبية يتراوح بين 400 إلى 700 مليون دولار (وحدات معالجة الرسومات + شرائح الشبكة)، وفي الوقت نفسه، يتطلب التدريب الشهري استهلاك 1.6 مليار كيلووات ساعة، مما يجعل النفقات الطاقية تصل إلى حوالي 20 مليون دولار شهريًا.
بالنسبة لفك ضغط قوة الحوسبة للذكاء الاصطناعي، فإنها تمثل أيضاً أحد المجالات الأولى التي تتقاطع فيها Web3 مع الذكاء الاصطناعي - DePin (شبكة البنية التحتية المادية اللامركزية). حالياً، قامت منصة بيانات DePin Ninja بعرض أكثر من 1400 مشروع، ومن بين المشاريع الرائدة في مشاركة قوة GPU تشمل io.net و Aethir و Akash و Render Network وغيرها.
تتمثل المنطق الرئيسي في: السماح للأفراد أو الكيانات التي تمتلك موارد GPU غير المستغلة بالمساهمة في قدرتها الحاسوبية بطريقة لامركزية دون الحاجة إلى إذن، من خلال سوق على الإنترنت بين المشترين والبائعين مشابهة لـ Uber أو Airbnb، مما يزيد من معدل استخدام موارد GPU غير المستغلة بشكل كاف، وبالتالي يحصل المستخدمون النهائيون على موارد حسابية فعالة بتكلفة أقل؛ في الوقت نفسه، تضمن آلية الرهن أنه في حال حدوث انتهاكات لآلية مراقبة الجودة أو انقطاع الشبكة، يتم فرض العقوبات المناسبة على مزودي الموارد.
تتميز بما يلي:
تجميع موارد GPU غير المستخدمة: يتمثل الموردون أساسًا في مراكز البيانات المستقلة الصغيرة والمتوسطة من الطرف الثالث، ومشغلي تعدين العملات المشفرة الذين يملكون فائضًا من موارد الحوسبة، والأجهزة المستخدمة في التعدين التي تعتمد على آلية توافق الآراء PoS، مثل أجهزة تعدين FileCoin وETH. حاليًا، هناك أيضًا مشاريع تهدف إلى بدء تشغيل أجهزة ذات عتبة دخول أقل، مثل exolab التي تستخدم MacBook وiPhone وiPad كأجهزة محلية لإنشاء شبكة حوسبة لتشغيل استدلال النماذج الكبيرة.
مواجهة سوق الذيل الطويل لقدرات الذكاء الاصطناعي:
أ. "من حيث الجانب التكنولوجي" يعتبر سوق القوة الحوسبية اللامركزية أكثر ملاءمة لخطوات الاستدلال. التدريب يعتمد بشكل أكبر على قدرة معالجة البيانات التي توفرها وحدات معالجة الرسوميات (GPU) ذات التجمعات الكبيرة جداً، بينما الاستدلال يتطلب أداءً أقل نسبياً لوحدات معالجة الرسوميات، مثل تركيز Aethir على أعمال العرض ذات الكمون المنخفض وتطبيقات الاستدلال بالذكاء الاصطناعي.
ب. "من جهة الطلب"، لن يقوم أصحاب القوة الحاسوبية المتوسطة والصغيرة بتدريب نماذجهم الكبيرة بشكل منفصل، بل سيختارون فقط تحسين وتعديل حول عدد قليل من النماذج الكبيرة الرائدة، وهذه السيناريوهات تتناسب تمامًا مع موارد القوة الحاسوبية الموزعة غير المستخدمة.
البيانات
البيانات هي أساس الذكاء الاصطناعي. إذا لم توجد بيانات، فإن الحساب سيكون عديم الفائدة مثل الطفو على سطح الماء، وعلاقة البيانات بالنموذج تشبه المثل الشائع "قمامة في، قمامة خارج"، حيث تحدد كمية البيانات وجودة المدخلات جودة مخرجات النموذج النهائي. بالنسبة لتدريب نماذج الذكاء الاصطناعي الحالية، تحدد البيانات قدرة النموذج على اللغة، وفهمه، وحتى قيمه وأدائه الإنساني. في الوقت الحالي، تركز صعوبات طلب البيانات في الذكاء الاصطناعي بشكل أساسي على الجوانب الأربعة التالية:
جوع البيانات: تعتمد نماذج الذكاء الاصطناعي في التدريب على كميات كبيرة من بيانات الإدخال. تظهر المعلومات العامة أن OpenAI قد قامت بتدريب GPT-4 مع عدد من المعلمات بلغ تريليونات.
جودة البيانات: مع دمج الذكاء الاصطناعي في مختلف الصناعات، تطرح الجدول الزمني للبيانات، تنوع البيانات، تخصص البيانات القطاعية، ومصادر البيانات الناشئة مثل استيعاب المشاعر من وسائل التواصل الاجتماعي متطلبات جديدة لجودتها.
مشاكل الخصوصية والامتثال: بدأت الدول والشركات المختلفة في إدراك أهمية مجموعات البيانات عالية الجودة، وتقوم بتقييد عملية جمع البيانات.
تكلفة معالجة البيانات مرتفعة: حجم البيانات كبير، وعملية المعالجة معقدة. تظهر المعلومات العامة أن أكثر من 30% من تكلفة البحث والتطوير في شركات الذكاء الاصطناعي تُستخدم لجمع البيانات الأساسية ومعالجتها.
حالياً، تظهر حلول web3 في الجوانب الأربعة التالية:
تتمثل رؤية Web3 في السماح للمستخدمين الذين يساهمون بالفعل بالمشاركة في إنشاء القيمة الناتجة عن البيانات، وكذلك الحصول على بيانات أكثر خصوصية وقيمة بتكلفة منخفضة من خلال الشبكة الموزعة وآليات الحوافز.
Grass هو طبقة بيانات وشبكة لامركزية، يمكن للمستخدمين من خلالها تشغيل عقد Grass، والمساهمة في النطاق الترددي الفائض وتدفق البيانات لإلتقاط البيانات الحية من جميع أنحاء الإنترنت، والحصول على مكافآت رمزية؛
Vana قد قدمت مفهوم فريد من نوعه لبركة سيولة البيانات (DLP) حيث يمكن للمستخدمين رفع بياناتهم الخاصة (مثل سجلات الشراء، عادات التصفح، أنشطة وسائل التواصل الاجتماعي، إلخ) إلى DLP محدد، واختيار ما إذا كانوا يرغبون في منح إذن باستخدام هذه البيانات لطرف ثالث معين؛
في PublicAI، يمكن للمستخدمين استخدام #AI或#Web3 كعلامة تصنيف على X و @PublicAI لجمع البيانات.
2، معالجة البيانات: في عملية معالجة البيانات للذكاء الاصطناعي، نظرًا لأن البيانات التي تم جمعها عادة ما تكون مشوشة وتتضمن أخطاء، يجب تنظيفها وتحويلها إلى تنسيق قابل للاستخدام قبل تدريب النموذج، مما يتضمن مهام متكررة مثل المعايير، والتصفية، ومعالجة القيم المفقودة. هذه المرحلة هي واحدة من القلائل من المراحل اليدوية في صناعة الذكاء الاصطناعي، وقد نشأت منها صناعة معلمي البيانات. مع زيادة متطلبات جودة البيانات من النماذج، زادت أيضًا عتبة دخول معلمي البيانات، وهذه المهمة مناسبة تمامًا لآلية التحفيز اللامركزية في Web3.
حالياً، تفكر Grass و OpenLayer في الانضمام إلى هذه المرحلة الحاسمة من تصنيف البيانات.
قدمت Synesis مفهوم "Train2earn"، مشددة على جودة البيانات، حيث يمكن للمستخدمين الحصول على مكافآت من خلال تقديم بيانات موسومة، تعليقات أو أشكال أخرى من المدخلات.
مشروع وسم البيانات Sapien يقوم بتحويل مهام الوسم إلى لعبة، ويتيح للمستخدمين رهن النقاط لكسب المزيد من النقاط.
3، خصوصية البيانات والأمان: يجب توضيح أن خصوصية البيانات والأمان هما مفهومين مختلفين. تتعلق خصوصية البيانات بمعالجة البيانات الحساسة، بينما يحمي الأمان المعلومات من الوصول غير المصرح به أو التدمير أو السرقة. وبالتالي، فإن مزايا تقنيات الخصوصية في Web3 وتطبيقاتها المحتملة تظهر في جانبين: (1) تدريب البيانات الحساسة؛ (2) التعاون في البيانات: يمكن لمالكي البيانات المتعددين المشاركة معًا في تدريب الذكاء الاصطناعي دون الحاجة إلى مشاركة بياناتهم الأصلية.
تشمل تقنيات الخصوصية الشائعة في Web3 الحالية:
البيئة التنفيذية الموثوقة ( TEE )، مثل بروتوكول سوبر؛
التشفير المتجانس تمامًا (FHE)، مثل BasedAI، Fhenix.io أو Inco Network؛
تقنية المعرفة الصفرية (zk)، مثل بروتوكول Reclaim الذي يستخدم تقنية zkTLS، تولد إثباتات المعرفة الصفرية لحركة مرور HTTPS، مما يسمح للمستخدمين باستيراد الأنشطة والسمعة وبيانات الهوية من مواقع الويب الخارجية بأمان، دون الكشف عن المعلومات الحساسة.
ومع ذلك، لا يزال هذا المجال في مراحله المبكرة، حيث لا يزال معظم المشاريع في مرحلة الاستكشاف، ومن الصعوبات الحالية هي ارتفاع تكاليف الحوسبة، ومن الأمثلة على ذلك:
يحتاج إطار zkML EZKL إلى حوالي 80 دقيقة لإنشاء دليل لنموذج 1M-nanoGPT.
وفقًا لبيانات Modulus Labs، فإن تكلفة zkML أعلى بأكثر من 1000 مرة من الحسابات البحتة.