Projetos Web3 com conceito de IA tornam-se alvos de captação de recursos nos mercados primário e secundário.
As oportunidades do Web3 na indústria de IA manifestam-se em: utilizar incentivos distribuídos para coordenar o potencial de suprimento na cauda longa ------ através de dados, armazenamento e computação; ao mesmo tempo, estabelecer modelos de código aberto e um mercado descentralizado para Agentes de IA.
A IA na indústria Web3 é aplicada principalmente em finanças em blockchain (pagamentos em criptomoeda, negociação, análise de dados) e assistência ao desenvolvimento.
A utilidade do AI+Web3 reside na complementaridade entre os dois: o Web3 promete combater a centralização da IA, enquanto a IA promete ajudar o Web3 a quebrar barreiras.
Introdução
Nos últimos dois anos, o desenvolvimento da IA parece ter sido acelerado, e o efeito borboleta desencadeado pelo Chatgpt não apenas abriu um novo mundo de inteligência artificial generativa, mas também agitou as águas no campo do Web3.
Com o suporte do conceito de IA, o financiamento no mercado de criptomoedas aumentou significativamente. De acordo com estatísticas, apenas no primeiro semestre de 2024, 64 projetos Web3+IA completaram financiamento, sendo que o sistema operacional baseado em inteligência artificial Zyber365 obteve 100 milhões de dólares em financiamento na rodada A.
O mercado secundário está mais próspero, com dados de sites de agregação de criptomoedas mostrando que, em pouco mais de um ano, o valor total de mercado da área de IA atingiu 48,5 bilhões de dólares, com um volume de negociação em 24 horas próximo de 8,6 bilhões de dólares; os avanços em tecnologias de IA têm trazido benefícios evidentes, após o lançamento do modelo de texto para vídeo Sora da OpenAI, o preço médio do setor de IA subiu 151%; o efeito da IA também se estendeu a um dos segmentos que atraem capital em criptomoedas, o Meme: o primeiro MemeCoin com o conceito de Agente de IA ------ GOAT rapidamente se tornou popular e alcançou uma avaliação de 1,4 bilhão de dólares, gerando uma onda de memes de IA.
A pesquisa e os tópicos sobre AI+Web3 também estão em alta, desde AI+Depin até AI Memecoin e, atualmente, AI Agent e AI DAO, a emoção de FOMO já não consegue acompanhar a velocidade da mudança de narrativas.
AI+Web3, esta combinação de termos cheia de dinheiro fácil, oportunidades e fantasias futuras, não pode deixar de ser vista como um casamento arranjado de capital, parece que é difícil distinguir sob essa aparência glamourosa, se é realmente o terreno dos especuladores ou a véspera da explosão da alvorada?
Para responder a esta questão, um pensamento chave é se a outra parte se tornará melhor? Será que podemos beneficiar do modelo da outra parte? Neste artigo, tentamos examinar este padrão: como o Web3 pode desempenhar um papel em cada parte da pilha de tecnologia de IA, e o que a IA pode trazer de novo ao Web3?
Parte 1 Que oportunidades existem para o Web3 sob a pilha de IA?
Antes de abordar este tópico, precisamos entender a pilha de tecnologia dos grandes modelos de IA:
Explicar todo o processo em linguagem simples: "Grandes Modelos" são como o cérebro humano. Na fase inicial, esse cérebro pertence a um bebê recém-nascido, que precisa observar e absorver uma enorme quantidade de informações externas para entender o mundo. Esta é a fase de "coleta" de dados; como os computadores não possuem os múltiplos sentidos humanos, antes do treinamento, as grandes quantidades de informações externas não rotuladas precisam ser convertidas, através de "pré-processamento", em um formato que o computador possa entender e utilizar.
Após a inserção de dados, a IA construiu um modelo com capacidade de compreensão e previsão através de "treinamento", que pode ser visto como o processo em que um bebê gradualmente entende e aprende sobre o mundo exterior. Os parâmetros do modelo são semelhantes à capacidade linguística que o bebê ajusta continuamente durante o processo de aprendizagem. Quando o conteúdo de aprendizagem começa a ser dividido em disciplinas ou quando há interação com pessoas que fornecem feedback e correções, entra-se na fase de "ajuste fino" do grande modelo.
Após as crianças crescerem e aprenderem a falar, elas conseguem entender o significado nas novas conversas e expressar seus sentimentos e pensamentos. Essa fase é semelhante à "razão" dos grandes modelos de IA, onde o modelo pode prever e analisar novas entradas de linguagem e texto. Os bebês expressam sentimentos, descrevem objetos e resolvem problemas por meio de suas habilidades linguísticas, o que também é similar à aplicação de grandes modelos de IA na fase de raciocínio após serem treinados e utilizados em diversas tarefas específicas, como classificação de imagens, reconhecimento de voz, entre outros.
O AI Agent está mais próximo da próxima forma dos grandes modelos ------ capaz de executar tarefas de forma independente e perseguir objetivos complexos, não apenas possuindo capacidade de pensar, mas também de memorizar, planejar e interagir com o mundo utilizando ferramentas.
Atualmente, em resposta aos pontos críticos da IA em várias pilhas, o Web3 formou inicialmente um ecossistema interconectado e multilayer, abrangendo todas as fases do processo de modelos de IA.
Uma, Nível Básico: Airbnb de Poder de Cálculo e Dados
Poder de cálculo
Atualmente, um dos custos mais elevados da IA é a potência computacional e a energia necessárias para treinar modelos e inferir modelos.
O LLAMA3 da Meta precisa de 16.000 GPUs H100 produzidas pela NVIDIA (que é uma unidade de processamento gráfico de topo projetada para cargas de trabalho de inteligência artificial e computação de alto desempenho) durante 30 dias para completar o treinamento. A versão de 80 GB custa entre 30.000 e 40.000 dólares, o que requer um investimento em hardware de computação de 400 a 700 milhões de dólares (GPU + chip de rede), ao mesmo tempo que o treinamento mensal consome 1,6 bilhões de quilowatts-hora, com despesas de energia mensais de quase 20 milhões de dólares.
A descompressão do poder computacional da IA é também um dos primeiros campos de interseção entre Web3 e IA ------ DePin (Rede de Infraestrutura Física Descentralizada). Atualmente, o site de dados DePin Ninja listou mais de 1400 projetos, dos quais os projetos representativos de compartilhamento de poder computacional GPU incluem io.net, Aethir, Akash, Render Network, entre outros.
A lógica principal é a seguinte: a plataforma permite que indivíduos ou entidades com recursos de GPU ociosos contribuam com capacidade de computação de forma descentralizada e sem necessidade de autorização, através de um mercado online de compra e venda semelhante ao Uber ou Airbnb, aumentando a utilização de recursos de GPU subutilizados, e os usuários finais obtêm, assim, recursos de computação eficientes a um custo mais baixo; ao mesmo tempo, o mecanismo de staking garante que, caso haja violação dos mecanismos de controle de qualidade ou interrupção da rede, os provedores de recursos sejam punidos de acordo.
As suas características estão em:
Agregar recursos de GPU ociosos: os fornecedores são principalmente operadores de centros de dados independentes de pequeno e médio porte de terceiros, recursos de potência excedente de fazendas de mineração, e hardware de mineração com mecanismo de consenso PoS, como máquinas de mineração FileCoin e ETH. Atualmente, também há projetos que se dedicam a iniciar dispositivos com barreiras de entrada mais baixas, como o exolab, que utiliza MacBook, iPhone, iPad e outros dispositivos locais para construir uma rede de potência para a inferência de grandes modelos.
Enfrentando o mercado de cauda longa da capacidade computacional de IA:
a. O mercado de poder de computação descentralizado no "lado técnico" é mais adequado para etapas de inferência. O treinamento depende mais da capacidade de processamento de dados proporcionada por grandes clusters de GPUs, enquanto a inferência tem requisitos relativamente mais baixos em termos de desempenho computacional de GPU, como é o caso da Aethir, que se concentra em trabalhos de renderização de baixa latência e aplicações de inferência de IA.
b. No "lado da demanda", os pequenos e médios consumidores de poder computacional não treinarão seus próprios grandes modelos, mas apenas escolherão otimizar e ajustar finamente em torno de alguns grandes modelos de destaque, e esses cenários são naturalmente adequados para recursos computacionais ociosos distribuídos.
Propriedade descentralizada: o significado técnico da blockchain é que os proprietários de recursos mantêm sempre o controle sobre os recursos, podendo ajustá-los de forma flexível de acordo com a demanda, ao mesmo tempo em que obtêm lucros.
Dados
Os dados são a base da IA. Sem dados, a computação é tão inútil quanto uma planta flutuante, e a relação entre dados e modelos é como aquele ditado "Garbage in, Garbage out". A quantidade de dados e a qualidade da entrada determinam a qualidade da saída do modelo final. Para o treinamento dos modelos de IA atuais, os dados determinam a capacidade linguística, a capacidade de compreensão, e até mesmo os valores e a representação humanizada do modelo. Atualmente, a dificuldade na demanda por dados de IA concentra-se nas seguintes quatro áreas:
Fome de dados: O treinamento de modelos de IA depende de uma enorme entrada de dados. Dados públicos mostram que o OpenAI treinou o GPT-4 com um número de parâmetros na casa dos trilhões.
Qualidade dos dados: Com a integração da IA em vários setores, a atualidade, diversidade, especialização dos dados verticais e a incorporação de novas fontes de dados, como as emoções das redes sociais, também impuseram novas exigências à sua qualidade.
Questões de privacidade e conformidade: Atualmente, diversos países e empresas estão gradualmente cientes da importância de conjuntos de dados de qualidade e estão a impor restrições à coleta de conjuntos de dados.
Custo elevado de processamento de dados: grande volume de dados e processo de tratamento complexo. Dados públicos mostram que mais de 30% dos custos de P&D das empresas de IA são utilizados na coleta e processamento de dados básicos.
Atualmente, as soluções web3 estão refletidas nos seguintes quatro aspectos:
Coleta de dados: Os dados do mundo real, que são coletados gratuitamente, estão se esgotando rapidamente, e os gastos das empresas de IA com dados estão aumentando ano após ano. No entanto, esses gastos não estão beneficiando os verdadeiros contribuidores dos dados; as plataformas desfrutam inteiramente da criação de valor trazida pelos dados, como o Reddit, que gerou uma receita total de 203 milhões de dólares através de acordos de licença de dados com empresas de IA.
Permitir que os usuários que realmente contribuem também participem na criação de valor trazida pelos dados, e obter dados mais privados e valiosos dos usuários de forma de baixo custo através de uma rede distribuída e mecanismos de incentivo, é a visão do Web3.
Grass é uma camada de dados e rede descentralizada, onde os usuários podem operar nós Grass, contribuindo com largura de banda ociosa e tráfego de retransmissão para capturar dados em tempo real de toda a internet e receber recompensas em tokens;
A Vana introduziu o conceito único de Pool de Liquidez de Dados (DLP), onde os usuários podem fazer upload de dados privados (como registos de compras, hábitos de navegação, atividades em redes sociais, etc.) para um DLP específico e escolher flexivelmente se autorizam ou não o uso desses dados por terceiros específicos;
No PublicAI, os usuários podem usar #AI或#Web3 como etiqueta de classificação em X e @PublicAI para realizar a coleta de dados.
Pré-processamento de dados: Durante o processamento de dados de IA, devido ao fato de que os dados coletados geralmente são ruidosos e contêm erros, é necessário limpá-los e convertê-los em um formato utilizável antes de treinar o modelo, envolvendo a normalização, filtragem e o tratamento de valores ausentes em tarefas repetitivas. Esta fase é uma das poucas etapas manuais na indústria de IA, tendo gerado a profissão de anotador de dados. À medida que a exigência do modelo em relação à qualidade dos dados aumenta, o nível de entrada para os anotadores de dados também se eleva, e essa tarefa se adapta naturalmente ao mecanismo de incentivo descentralizado do Web3.
Atualmente, o Grass e o OpenLayer estão considerando a inclusão da rotulagem de dados nesta etapa crucial.
A Synesis propôs o conceito "Train2earn", enfatizando a qualidade dos dados, permitindo que os usuários recebam recompensas ao fornecer dados anotados, comentários ou outras formas de contribuição.
O projeto de anotação de dados Sapien gamifica as tarefas de marcação e permite que os usuários apostem pontos para ganhar mais pontos.
Privacidade e segurança dos dados: é importante esclarecer que privacidade e segurança dos dados são dois conceitos diferentes. A privacidade dos dados envolve o tratamento de dados sensíveis, enquanto a segurança dos dados protege as informações contra acesso, destruição e roubo não autorizados. Assim, as vantagens das tecnologias de privacidade do Web3 e os cenários de aplicação potenciais manifestam-se em duas áreas: (1) treinamento de dados sensíveis; (2) colaboração de dados: vários proprietários de dados podem participar juntos do treinamento de IA, sem a necessidade de compartilhar os dados originais.
As tecnologias de privacidade mais comuns no Web3 atualmente incluem:
Ambiente de Execução Confiável ( TEE ), como o Super Protocol;
Criptografia homomórfica completa (FHE), por exemplo BasedAI, Fhenix.io ou Inco Network;
A tecnologia de conhecimento zero (zk), como o Reclaim Protocol que usa a tecnologia zkTLS, gera provas de conhecimento zero para tráfego HTTPS, permitindo que os usuários importem com segurança dados de atividades, reputação e identidade de sites externos, sem expor informações sensíveis.
No entanto, atualmente o setor ainda está em estágio inicial, a maioria dos projetos ainda está em exploração, e um dos dilemas atuais é que os custos de computação são muito altos, por exemplo:
O framework zkML EZKL leva cerca de 80 minutos para gerar a prova do modelo 1M-nanoGPT.
De acordo com dados da Modulus Labs, o custo do zkML é mais de 1000 vezes maior do que o da computação pura.
Armazenamento de dados: Depois de ter os dados, é necessário um lugar para armazená-los na cadeia, bem como o LLM gerado a partir desses dados. Com a disponibilidade de dados (DA) como questão central, antes da atualização Danksharding do Ethereum, sua capacidade de processamento era de 0,08 MB. No entanto, o treinamento de modelos de IA e a inferência em tempo real geralmente requerem uma taxa de transferência de dados de 50 a 100 GB por segundo. Essa diferença de magnitude faz com que as soluções existentes na cadeia se sintam incapazes diante de "aplicações de IA que exigem muitos recursos."
0g.AI é o projeto representativo desta categoria. É uma solução de armazenamento centralizada projetada para atender às altas demandas de desempenho em IA, com características chave que incluem: alto desempenho e escalabilidade, suportando upload e download rápido de grandes conjuntos de dados através de tecnologias avançadas de fragmentação (Sharding) e codificação de eliminação (Erasure Coding), com velocidades de transferência de dados próximas a 5GB por segundo.
Dois, Middleware: Treinamento e Inferência do Modelo
Mercado descentralizado de modelos de código aberto
A discussão sobre se os modelos de IA devem ser de código aberto ou fechado nunca desapareceu. A inovação coletiva trazida pelo código aberto é incomparável com a dos modelos fechados.
Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
9 gostos
Recompensa
9
4
Partilhar
Comentar
0/400
MEVVictimAlliance
· 07-09 19:31
Só mais uma onda de grandes empresas a fazer as pessoas de parvas.
Ver originalResponder0
BlockchainFoodie
· 07-07 08:28
servindo algumas informações privilegiadas de web3 como um chef de defi com estrela michelin... esta combinação de ai+web3 parece a receita perfeita, para ser sincero
Ver originalResponder0
PaperHandsCriminal
· 07-07 08:26
Novamente fui enganado por idiotas. Veja o que sobe e copie.
Análise do padrão AI+Web3: oportunidades e desafios desde a infraestrutura até o modelo de negócios
AI+Web3: Torres e Praças
TL;DR
Projetos Web3 com conceito de IA tornam-se alvos de captação de recursos nos mercados primário e secundário.
As oportunidades do Web3 na indústria de IA manifestam-se em: utilizar incentivos distribuídos para coordenar o potencial de suprimento na cauda longa ------ através de dados, armazenamento e computação; ao mesmo tempo, estabelecer modelos de código aberto e um mercado descentralizado para Agentes de IA.
A IA na indústria Web3 é aplicada principalmente em finanças em blockchain (pagamentos em criptomoeda, negociação, análise de dados) e assistência ao desenvolvimento.
A utilidade do AI+Web3 reside na complementaridade entre os dois: o Web3 promete combater a centralização da IA, enquanto a IA promete ajudar o Web3 a quebrar barreiras.
Introdução
Nos últimos dois anos, o desenvolvimento da IA parece ter sido acelerado, e o efeito borboleta desencadeado pelo Chatgpt não apenas abriu um novo mundo de inteligência artificial generativa, mas também agitou as águas no campo do Web3.
Com o suporte do conceito de IA, o financiamento no mercado de criptomoedas aumentou significativamente. De acordo com estatísticas, apenas no primeiro semestre de 2024, 64 projetos Web3+IA completaram financiamento, sendo que o sistema operacional baseado em inteligência artificial Zyber365 obteve 100 milhões de dólares em financiamento na rodada A.
O mercado secundário está mais próspero, com dados de sites de agregação de criptomoedas mostrando que, em pouco mais de um ano, o valor total de mercado da área de IA atingiu 48,5 bilhões de dólares, com um volume de negociação em 24 horas próximo de 8,6 bilhões de dólares; os avanços em tecnologias de IA têm trazido benefícios evidentes, após o lançamento do modelo de texto para vídeo Sora da OpenAI, o preço médio do setor de IA subiu 151%; o efeito da IA também se estendeu a um dos segmentos que atraem capital em criptomoedas, o Meme: o primeiro MemeCoin com o conceito de Agente de IA ------ GOAT rapidamente se tornou popular e alcançou uma avaliação de 1,4 bilhão de dólares, gerando uma onda de memes de IA.
A pesquisa e os tópicos sobre AI+Web3 também estão em alta, desde AI+Depin até AI Memecoin e, atualmente, AI Agent e AI DAO, a emoção de FOMO já não consegue acompanhar a velocidade da mudança de narrativas.
AI+Web3, esta combinação de termos cheia de dinheiro fácil, oportunidades e fantasias futuras, não pode deixar de ser vista como um casamento arranjado de capital, parece que é difícil distinguir sob essa aparência glamourosa, se é realmente o terreno dos especuladores ou a véspera da explosão da alvorada?
Para responder a esta questão, um pensamento chave é se a outra parte se tornará melhor? Será que podemos beneficiar do modelo da outra parte? Neste artigo, tentamos examinar este padrão: como o Web3 pode desempenhar um papel em cada parte da pilha de tecnologia de IA, e o que a IA pode trazer de novo ao Web3?
Parte 1 Que oportunidades existem para o Web3 sob a pilha de IA?
Antes de abordar este tópico, precisamos entender a pilha de tecnologia dos grandes modelos de IA:
Explicar todo o processo em linguagem simples: "Grandes Modelos" são como o cérebro humano. Na fase inicial, esse cérebro pertence a um bebê recém-nascido, que precisa observar e absorver uma enorme quantidade de informações externas para entender o mundo. Esta é a fase de "coleta" de dados; como os computadores não possuem os múltiplos sentidos humanos, antes do treinamento, as grandes quantidades de informações externas não rotuladas precisam ser convertidas, através de "pré-processamento", em um formato que o computador possa entender e utilizar.
Após a inserção de dados, a IA construiu um modelo com capacidade de compreensão e previsão através de "treinamento", que pode ser visto como o processo em que um bebê gradualmente entende e aprende sobre o mundo exterior. Os parâmetros do modelo são semelhantes à capacidade linguística que o bebê ajusta continuamente durante o processo de aprendizagem. Quando o conteúdo de aprendizagem começa a ser dividido em disciplinas ou quando há interação com pessoas que fornecem feedback e correções, entra-se na fase de "ajuste fino" do grande modelo.
Após as crianças crescerem e aprenderem a falar, elas conseguem entender o significado nas novas conversas e expressar seus sentimentos e pensamentos. Essa fase é semelhante à "razão" dos grandes modelos de IA, onde o modelo pode prever e analisar novas entradas de linguagem e texto. Os bebês expressam sentimentos, descrevem objetos e resolvem problemas por meio de suas habilidades linguísticas, o que também é similar à aplicação de grandes modelos de IA na fase de raciocínio após serem treinados e utilizados em diversas tarefas específicas, como classificação de imagens, reconhecimento de voz, entre outros.
O AI Agent está mais próximo da próxima forma dos grandes modelos ------ capaz de executar tarefas de forma independente e perseguir objetivos complexos, não apenas possuindo capacidade de pensar, mas também de memorizar, planejar e interagir com o mundo utilizando ferramentas.
Atualmente, em resposta aos pontos críticos da IA em várias pilhas, o Web3 formou inicialmente um ecossistema interconectado e multilayer, abrangendo todas as fases do processo de modelos de IA.
Uma, Nível Básico: Airbnb de Poder de Cálculo e Dados
Poder de cálculo
Atualmente, um dos custos mais elevados da IA é a potência computacional e a energia necessárias para treinar modelos e inferir modelos.
O LLAMA3 da Meta precisa de 16.000 GPUs H100 produzidas pela NVIDIA (que é uma unidade de processamento gráfico de topo projetada para cargas de trabalho de inteligência artificial e computação de alto desempenho) durante 30 dias para completar o treinamento. A versão de 80 GB custa entre 30.000 e 40.000 dólares, o que requer um investimento em hardware de computação de 400 a 700 milhões de dólares (GPU + chip de rede), ao mesmo tempo que o treinamento mensal consome 1,6 bilhões de quilowatts-hora, com despesas de energia mensais de quase 20 milhões de dólares.
A descompressão do poder computacional da IA é também um dos primeiros campos de interseção entre Web3 e IA ------ DePin (Rede de Infraestrutura Física Descentralizada). Atualmente, o site de dados DePin Ninja listou mais de 1400 projetos, dos quais os projetos representativos de compartilhamento de poder computacional GPU incluem io.net, Aethir, Akash, Render Network, entre outros.
A lógica principal é a seguinte: a plataforma permite que indivíduos ou entidades com recursos de GPU ociosos contribuam com capacidade de computação de forma descentralizada e sem necessidade de autorização, através de um mercado online de compra e venda semelhante ao Uber ou Airbnb, aumentando a utilização de recursos de GPU subutilizados, e os usuários finais obtêm, assim, recursos de computação eficientes a um custo mais baixo; ao mesmo tempo, o mecanismo de staking garante que, caso haja violação dos mecanismos de controle de qualidade ou interrupção da rede, os provedores de recursos sejam punidos de acordo.
As suas características estão em:
Agregar recursos de GPU ociosos: os fornecedores são principalmente operadores de centros de dados independentes de pequeno e médio porte de terceiros, recursos de potência excedente de fazendas de mineração, e hardware de mineração com mecanismo de consenso PoS, como máquinas de mineração FileCoin e ETH. Atualmente, também há projetos que se dedicam a iniciar dispositivos com barreiras de entrada mais baixas, como o exolab, que utiliza MacBook, iPhone, iPad e outros dispositivos locais para construir uma rede de potência para a inferência de grandes modelos.
Enfrentando o mercado de cauda longa da capacidade computacional de IA:
a. O mercado de poder de computação descentralizado no "lado técnico" é mais adequado para etapas de inferência. O treinamento depende mais da capacidade de processamento de dados proporcionada por grandes clusters de GPUs, enquanto a inferência tem requisitos relativamente mais baixos em termos de desempenho computacional de GPU, como é o caso da Aethir, que se concentra em trabalhos de renderização de baixa latência e aplicações de inferência de IA.
b. No "lado da demanda", os pequenos e médios consumidores de poder computacional não treinarão seus próprios grandes modelos, mas apenas escolherão otimizar e ajustar finamente em torno de alguns grandes modelos de destaque, e esses cenários são naturalmente adequados para recursos computacionais ociosos distribuídos.
Dados
Os dados são a base da IA. Sem dados, a computação é tão inútil quanto uma planta flutuante, e a relação entre dados e modelos é como aquele ditado "Garbage in, Garbage out". A quantidade de dados e a qualidade da entrada determinam a qualidade da saída do modelo final. Para o treinamento dos modelos de IA atuais, os dados determinam a capacidade linguística, a capacidade de compreensão, e até mesmo os valores e a representação humanizada do modelo. Atualmente, a dificuldade na demanda por dados de IA concentra-se nas seguintes quatro áreas:
Fome de dados: O treinamento de modelos de IA depende de uma enorme entrada de dados. Dados públicos mostram que o OpenAI treinou o GPT-4 com um número de parâmetros na casa dos trilhões.
Qualidade dos dados: Com a integração da IA em vários setores, a atualidade, diversidade, especialização dos dados verticais e a incorporação de novas fontes de dados, como as emoções das redes sociais, também impuseram novas exigências à sua qualidade.
Questões de privacidade e conformidade: Atualmente, diversos países e empresas estão gradualmente cientes da importância de conjuntos de dados de qualidade e estão a impor restrições à coleta de conjuntos de dados.
Custo elevado de processamento de dados: grande volume de dados e processo de tratamento complexo. Dados públicos mostram que mais de 30% dos custos de P&D das empresas de IA são utilizados na coleta e processamento de dados básicos.
Atualmente, as soluções web3 estão refletidas nos seguintes quatro aspectos:
Permitir que os usuários que realmente contribuem também participem na criação de valor trazida pelos dados, e obter dados mais privados e valiosos dos usuários de forma de baixo custo através de uma rede distribuída e mecanismos de incentivo, é a visão do Web3.
Grass é uma camada de dados e rede descentralizada, onde os usuários podem operar nós Grass, contribuindo com largura de banda ociosa e tráfego de retransmissão para capturar dados em tempo real de toda a internet e receber recompensas em tokens;
A Vana introduziu o conceito único de Pool de Liquidez de Dados (DLP), onde os usuários podem fazer upload de dados privados (como registos de compras, hábitos de navegação, atividades em redes sociais, etc.) para um DLP específico e escolher flexivelmente se autorizam ou não o uso desses dados por terceiros específicos;
No PublicAI, os usuários podem usar #AI或#Web3 como etiqueta de classificação em X e @PublicAI para realizar a coleta de dados.
Atualmente, o Grass e o OpenLayer estão considerando a inclusão da rotulagem de dados nesta etapa crucial.
A Synesis propôs o conceito "Train2earn", enfatizando a qualidade dos dados, permitindo que os usuários recebam recompensas ao fornecer dados anotados, comentários ou outras formas de contribuição.
O projeto de anotação de dados Sapien gamifica as tarefas de marcação e permite que os usuários apostem pontos para ganhar mais pontos.
As tecnologias de privacidade mais comuns no Web3 atualmente incluem:
Ambiente de Execução Confiável ( TEE ), como o Super Protocol;
Criptografia homomórfica completa (FHE), por exemplo BasedAI, Fhenix.io ou Inco Network;
A tecnologia de conhecimento zero (zk), como o Reclaim Protocol que usa a tecnologia zkTLS, gera provas de conhecimento zero para tráfego HTTPS, permitindo que os usuários importem com segurança dados de atividades, reputação e identidade de sites externos, sem expor informações sensíveis.
No entanto, atualmente o setor ainda está em estágio inicial, a maioria dos projetos ainda está em exploração, e um dos dilemas atuais é que os custos de computação são muito altos, por exemplo:
O framework zkML EZKL leva cerca de 80 minutos para gerar a prova do modelo 1M-nanoGPT.
De acordo com dados da Modulus Labs, o custo do zkML é mais de 1000 vezes maior do que o da computação pura.
Dois, Middleware: Treinamento e Inferência do Modelo
Mercado descentralizado de modelos de código aberto
A discussão sobre se os modelos de IA devem ser de código aberto ou fechado nunca desapareceu. A inovação coletiva trazida pelo código aberto é incomparável com a dos modelos fechados.