Explorando el futuro de la IA: tecnologías y desafíos de entrenamiento descentralizado

2025-07-04 19:03:43

Santo Grial de Crypto AI: exploración de vanguardia en entrenamiento descentralizado

El entrenamiento de IA es el eslabón más importante de toda la cadena de valor de la IA, ya que determina directamente el límite de capacidad del modelo y el efecto de la aplicación. En comparación con las llamadas de inferencia ligeras, el proceso de entrenamiento requiere una inversión continua de potencia de cálculo a gran escala, flujos de procesamiento de datos complejos y el apoyo de algoritmos de optimización de alta intensidad, siendo la verdadera "industria pesada" en la construcción de sistemas de IA. Desde la perspectiva de los paradigmas de arquitectura, los métodos de entrenamiento se pueden clasificar en cuatro categorías: entrenamiento centralizado, entrenamiento distribuido, aprendizaje federado y el entrenamiento de Descentralización que se discute en este artículo.

El entrenamiento centralizado es la forma más tradicional, donde una única entidad completa todo el proceso de entrenamiento en un clúster local de alto rendimiento, coordinando el funcionamiento de todos los componentes de hardware y software a través de un sistema de control unificado. Esta arquitectura de profunda colaboración permite que la eficiencia del entrenamiento alcance su máximo, siendo muy adecuada para el entrenamiento de modelos a gran escala como GPT y Gemini, con ventajas de alta eficiencia y recursos controlables; sin embargo, también presenta problemas como el monopolio de datos, barreras de recursos, consumo de energía y riesgos de un solo punto.

El entrenamiento distribuido es el enfoque principal para el entrenamiento de grandes modelos en la actualidad, y su núcleo es descomponer la tarea de entrenamiento del modelo y distribuirla a múltiples máquinas para que colaboren en la ejecución, con el fin de superar los cuellos de botella de cálculo y almacenamiento en una sola máquina. A pesar de poseer características "distribuidas" desde un punto de vista físico, en general sigue siendo controlado y programado por instituciones centralizadas, y a menudo opera en un entorno de red local de alta velocidad, utilizando tecnología de bus de interconexión de alta velocidad NVLink, con el nodo principal coordinando uniformemente las subtareas. Los métodos principales incluyen paralelismo de datos, paralelismo de modelos, paralelismo de tuberías y paralelismo de tensores. El entrenamiento distribuido es una combinación de "control centralizado + ejecución distribuida", análoga a un mismo jefe dirigiendo remotamente la colaboración de varios empleados de "oficina" para completar tareas. Actualmente, prácticamente todos los grandes modelos principales se entrenan de esta manera.

La Descentralización del entrenamiento representa un camino futuro más abierto y resistente a la censura. Su característica central radica en: múltiples nodos que no se confían entre sí colaboran para completar tareas de entrenamiento sin un coordinador central, generalmente a través de protocolos que impulsan la distribución de tareas y la colaboración, y utilizando mecanismos de incentivos criptográficos para asegurar la honestidad de las contribuciones. Los principales desafíos que enfrenta este modelo incluyen la heterogeneidad de los dispositivos y la dificultad de segmentación, cuellos de botella en la eficiencia de la comunicación, la falta de ejecución confiable y la falta de coordinación unificada. La Descentralización del entrenamiento puede entenderse como: un grupo de voluntarios en todo el mundo, cada uno contribuyendo con capacidad de cálculo para colaborar en el entrenamiento de modelos, pero "el verdadero entrenamiento descentralizado a gran escala viable" sigue siendo un desafío de ingeniería sistémica, que involucra múltiples niveles como la arquitectura del sistema, los protocolos de comunicación, la seguridad criptográfica, los mecanismos económicos, la validación de modelos, etc. La posibilidad de "colaboración efectiva + incentivos honestos + resultados correctos" aún se encuentra en la etapa temprana de exploración de prototipos.

El aprendizaje federado, como una forma de transición entre lo distribuido y la Descentralización, enfatiza la retención local de datos y la agregación centralizada de parámetros del modelo, siendo adecuado para escenarios que priorizan la conformidad con la privacidad. El aprendizaje federado posee la estructura de ingeniería del entrenamiento distribuido y la capacidad de colaboración local, al mismo tiempo que cuenta con la ventaja de la dispersión de datos del entrenamiento descentralizado; sin embargo, sigue dependiendo de una parte coordinadora de confianza y no tiene características completamente abiertas ni resistentes a la censura. Puede considerarse como una solución de "Descentralización controlada" en escenarios de conformidad con la privacidad, siendo relativamente moderada en las tareas de entrenamiento, la estructura de confianza y los mecanismos de comunicación, lo que la hace más adecuada como una arquitectura de despliegue transicional en la industria.

Desde la perspectiva del paradigma de entrenamiento, la Descentralización del entrenamiento no es adecuada para todos los tipos de tareas. En ciertos escenarios, debido a la complejidad de la estructura de la tarea, la alta demanda de recursos o la gran dificultad de colaboración, no es naturalmente adecuada para completarse de manera eficiente entre nodos heterogéneos y de confianza. Por ejemplo, el entrenamiento de modelos grandes a menudo depende de alta memoria, baja latencia y ancho de banda rápido, lo que dificulta la segmentación y sincronización efectivas en redes abiertas; las tareas con fuertes restricciones de privacidad de datos y soberanía están limitadas por la conformidad legal y las restricciones éticas, lo que impide el intercambio abierto; y las tareas que carecen de incentivos de colaboración básicos carecen de motivación para la participación externa. Estas fronteras constituyen las limitaciones reales del entrenamiento descentralizado actual.

Pero esto no significa que el entrenamiento descentralizado sea un concepto falso. De hecho, en tipos de tareas que son ligeras en estructura, fáciles de paralelizar y que pueden ser incentivadas, el entrenamiento descentralizado muestra perspectivas de aplicación claras. Incluyendo, pero no limitado a: ajuste fino de LoRA, tareas de entrenamiento post-alineación de comportamiento, tareas de entrenamiento y etiquetado por crowdsourcing, entrenamiento de modelos base pequeños con recursos controlables, así como escenarios de entrenamiento colaborativo que involucran dispositivos de borde. Estas tareas generalmente tienen características de alta paralelización, baja acoplamiento y tolerancia a potencias de cálculo heterogéneas, lo que las hace muy adecuadas para el entrenamiento colaborativo a través de redes P2P, protocolo Swarm, optimizadores distribuidos, entre otros.

Actualmente, en el campo de vanguardia de la Descentralización entrenada y el aprendizaje federado, los proyectos de blockchain más representativos incluyen Prime Intellect, Pluralis.ai, Gensyn, Nous Research y Flock.io. Desde la perspectiva de la innovación tecnológica y la dificultad de implementación ingenieril, Prime Intellect, Nous Research y Pluralis.ai han propuesto muchas exploraciones originales en la arquitectura del sistema y el diseño de algoritmos, representando las direcciones de vanguardia de la investigación teórica actual; mientras que Gensyn y Flock.io tienen rutas de implementación relativamente claras, y ya se pueden ver avances iniciales en la ingeniería.

Prime Intellect se dedica a construir una red de entrenamiento de IA sin necesidad de confianza, permitiendo que cualquier persona pueda participar en el entrenamiento y recibir recompensas confiables por su contribución computacional. Prime Intellect espera construir un sistema de entrenamiento de IA descentralizado que sea verificable, abierto y con un mecanismo de incentivos completo a través de los tres módulos: PRIME-RL + TOPLOC + SHARDCAST.

PRIME-RL es un marco de modelado y ejecución de tareas personalizado por Prime Intellect para escenarios de entrenamiento de Descentralización, diseñado específicamente para redes heterogéneas y participación asíncrona. Utiliza el aprendizaje por refuerzo como objeto de adaptación preferente, desacoplando estructuralmente los procesos de entrenamiento, inferencia y carga de pesos, permitiendo que cada nodo de entrenamiento complete de manera independiente el ciclo de tareas en local y colabore a través de interfaces estandarizadas con mecanismos de verificación y agregación. En comparación con los procesos de aprendizaje supervisado tradicionales, PRIME-RL es más adecuado para implementar entrenamiento flexible en un entorno sin programación central, reduciendo así la complejidad del sistema y sentando las bases para respaldar la paralelización de múltiples tareas y la evolución de estrategias.

TOPLOC es un mecanismo central de verificabilidad de entrenamiento propuesto por Prime Intellect, utilizado para determinar si un nodo ha completado realmente un aprendizaje de estrategia válido basado en datos de observación. A diferencia de soluciones pesadas como ZKML, TOPLOC no depende de la recalibración del modelo completo, sino que completa la verificación de la estructura ligera mediante el análisis de la trayectoria de consistencia local entre "secuencia de observación ↔ actualización de estrategia". Por primera vez, convierte la trayectoria de comportamiento durante el proceso de entrenamiento en un objeto verificable, siendo una innovación clave para lograr una distribución de recompensas de entrenamiento sin necesidad de confianza, y proporciona un camino viable para construir una red de entrenamiento colaborativa descentralizada que sea auditable y motivadora.

SHARDCAST es un protocolo de propagación y agregación de pesos diseñado por Prime Intellect, optimizado específicamente para entornos de red reales que son asíncronos, con ancho de banda limitado y estados de nodo variables. Combina mecanismos de propagación gossip y estrategias de sincronización local, permitiendo que múltiples nodos continúen enviando actualizaciones parciales en estados desincronizados, logrando una convergencia progresiva de pesos y una evolución de múltiples versiones. En comparación con métodos centralizados o síncronos de AllReduce, SHARDCAST mejora significativamente la escalabilidad y la tolerancia a fallos del entrenamiento Descentralización, siendo la base fundamental para construir un consenso de pesos estable y una iteración de entrenamiento continuo.

OpenDiLoCo es un marco de optimización de comunicación implementado de forma independiente y de código abierto por el equipo de Prime Intellect, basado en la idea de DiLoCo propuesta por DeepMind, diseñado específicamente para enfrentar desafíos comunes en el entrenamiento descentralizado, como la limitación de ancho de banda, la heterogeneidad de dispositivos y la inestabilidad de nodos. Su arquitectura se basa en la paralelización de datos, construyendo topologías dispersas como Ring, Expander y Small-World, evitando el alto costo de comunicación de la sincronización global, permitiendo completar el entrenamiento colaborativo del modelo solo con nodos vecinos locales. Combinando actualizaciones asíncronas y un mecanismo de tolerancia a fallos, OpenDiLoCo permite que GPUs de consumo y dispositivos de borde participen de manera estable en tareas de entrenamiento, mejorando significativamente la participación en el entrenamiento colaborativo global, siendo una de las infraestructuras de comunicación clave para construir redes de entrenamiento descentralizado.

PCCL es una biblioteca de comunicación liviana diseñada a medida por Prime Intellect para entornos de entrenamiento de IA descentralizada, con el objetivo de resolver los cuellos de botella de adaptación de las bibliotecas de comunicación tradicionales en dispositivos heterogéneos y redes de bajo ancho de banda. PCCL admite topologías dispersas, compresión de gradientes, sincronización de baja precisión y recuperación de puntos de control, y puede funcionar en GPU de consumo y nodos inestables, siendo un componente fundamental que respalda la capacidad de comunicación asincrónica del protocolo OpenDiLoCo. Mejora significativamente la tolerancia al ancho de banda de la red de entrenamiento y la compatibilidad de los dispositivos, abriendo la "última milla" de la infraestructura de comunicación para construir una red de entrenamiento colaborativo verdaderamente abierta y sin necesidad de confianza.

Prime Intellect ha construido una red de entrenamiento sin permisos, verificable y con un mecanismo de incentivos económicos, permitiendo que cualquiera pueda participar en tareas y obtener recompensas basadas en contribuciones reales. El protocolo opera en función de tres roles principales: iniciador de tareas, nodos de entrenamiento y nodos de verificación. El proceso central del protocolo incluye la publicación de tareas, el entrenamiento de nodos, la verificación de trayectorias, la agregación de pesos y la distribución de recompensas, formando un ciclo de incentivos en torno a "comportamientos de entrenamiento reales".

Prime Intellect lanzó INTELLECT-2 en mayo de 2025, que es el primer gran modelo de aprendizaje por refuerzo del mundo entrenado mediante la colaboración de nodos descentralizados asíncronos y sin confianza, con un tamaño de parámetros que alcanza los 32B. El modelo INTELLECT-2 fue completado mediante el entrenamiento colaborativo de más de 100 nodos heterogéneos GPU distribuidos en tres continentes, utilizando una arquitectura completamente asíncrona, con una duración de entrenamiento de más de 400 horas, mostrando la viabilidad y estabilidad de la red de colaboración asíncrona. Este modelo no solo representa un avance en rendimiento, sino que también es la primera implementación sistemática del paradigma "entrenar es consenso" propuesto por Prime Intellect. INTELLECT-2 integra módulos de protocolo centrales como PRIME-RL, TOPLOC y SHARDCAST, marcando la primera realización de la apertura, verificabilidad y bucle de incentivos económicos en el proceso de entrenamiento de una red de entrenamiento descentralizada.

En términos de rendimiento, INTELLECT-2 está basado en QwQ-32B y ha realizado un entrenamiento RL especializado en código y matemáticas, colocándose a la vanguardia de los modelos de ajuste fino de RL de código abierto actuales. Aunque aún no ha superado a modelos cerrados como GPT-4 o Gemini, su verdadero significado radica en que: es el primer experimento de modelo descentralizado del mundo cuyo proceso de entrenamiento completo es reproducible, verificable y auditado. Prime Intellect no solo ha hecho el modelo de código abierto, sino que lo más importante es que ha hecho el proceso de entrenamiento en sí mismo de código abierto: los datos de entrenamiento, las trayectorias de actualización de estrategias, los procesos de validación y la lógica de agregación son transparentes y verificables, construyendo un prototipo de red de entrenamiento descentralizada en la que todos pueden participar, colaborar de forma confiable y compartir beneficios.

Pluralis es un proyecto de IA Web3 enfocado en "redes de entrenamiento colaborativo confiables", cuyo objetivo central es promover un paradigma de entrenamiento de modelos que sea descentralizado, de participación abierta y con mecanismos de incentivos a largo plazo. A diferencia de las rutas de entrenamiento centralizadas o cerradas que predominan actualmente, Pluralis propone una nueva idea llamada Aprendizaje por Protocolo: "protocolizar" el proceso de entrenamiento de modelos, construyendo un sistema de entrenamiento abierto que cuente con un bucle de incentivos endógeno a través de mecanismos de colaboración verificables y mapeo de propiedad del modelo.

El Protocol Learning propuesto por Pluralis incluye tres pilares clave:

Modelo no extraíble: el modelo se distribuye en forma de fragmentos entre múltiples nodos, y ningún nodo individual puede restaurar el peso completo manteniendo el código cerrado. Este diseño hace que el modelo sea inherentemente un "activo dentro del protocolo", permitiendo el control de certificados de acceso, protección contra filtraciones y la vinculación de la pertenencia a los ingresos.
Entrenamiento en paralelo de modelos basado en Internet: a través del mecanismo de paralelismo de modelos Pipeline asíncronos, diferentes nodos solo poseen parte de los pesos, colaborando a través de una red de baja capacidad para completar el entrenamiento o la inferencia.
Modelo de distribución de propiedad por contribución: todos los nodos participantes obtienen una parte de la propiedad del modelo según su contribución al entrenamiento, disfrutando así de la participación en los beneficios futuros y derechos de gobernanza del protocolo.

En términos de mecanismos técnicos,

PRIME2.24%

Ver originales

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

7 me gusta