A pesquisa mais recente revela vulnerabilidades de confiabilidade nos modelos GPT, avaliando a segurança da IA sob múltiplas perspectivas.

Avaliação da Confiabilidade de Grandes Modelos de Linguagem

Um estudo realizado em conjunto por várias universidades e instituições de pesquisa de renome recentemente lançou uma plataforma abrangente de avaliação de confiabilidade para grandes modelos de linguagem (LLMs). Este estudo tem como objetivo avaliar de forma abrangente a confiabilidade de modelos como o GPT e revelar as possíveis vulnerabilidades existentes.

A equipe de pesquisa descobriu alguns problemas de credibilidade que não foram divulgados anteriormente. Por exemplo, o modelo GPT tende a gerar saídas prejudiciais e tendenciosas, e pode também vazar informações privadas dos dados de treinamento e do histórico de conversas. Curiosamente, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes padrão, ele é mais suscetível a ataques quando confrontado com dicas enganosas cuidadosamente elaboradas. Isso pode ser porque o GPT-4 segue essas instruções enganosas de forma mais rigorosa.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente a partir de oito ângulos diferentes, incluindo robustez contra ataques adversariais, toxicidade e preconceito, proteção de privacidade, entre outros aspectos. Eles projetaram vários cenários de avaliação, como testes de referência padrão, desempenho sob diferentes instruções de tarefas orientadoras e desempenho ao enfrentar textos adversariais mais desafiadores.

Em termos de robustez do modelo contra exemplos adversariais, a pesquisa descobriu que o modelo GPT consegue lidar bem com exemplos contrafactuais, mas em certas situações pode ser induzido em erro. Em relação à toxicidade e preconceito, o modelo GPT geralmente se comporta bem, mas quando confrontado com sugestões enganosas cuidadosamente elaboradas, pode gerar conteúdo enviesado. A pesquisa também descobriu que o grau de viés do modelo muitas vezes depende de grupos e tópicos específicos mencionados no prompt do usuário.

Sobre a proteção da privacidade, estudos mostram que os modelos GPT podem vazar informações sensíveis dos dados de treinamento, especialmente sob certos prompts específicos. O GPT-4 é, em geral, mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, mas ambos os modelos demonstram uma estabilidade relativa quando confrontados com certos tipos de informações privadas. No entanto, quando aparecem exemplos que envolvem privacidade em um diálogo, ambos os modelos podem vazar vários tipos de informações pessoais.

Este estudo fornece valiosos insights para compreender e melhorar a confiabilidade dos grandes modelos de linguagem. A equipe de pesquisa espera que este trabalho possa impulsionar mais pesquisas relacionadas e, em última instância, ajudar a desenvolver modelos de IA mais robustos e confiáveis.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 3
  • Compartilhar
Comentário
0/400
CryptoDouble-O-Sevenvip
· 07-05 19:06
Sr. Sabe Tudo: GPT4 ainda não é perfeito, viu?
Ver originalResponder0
GhostWalletSleuthvip
· 07-05 19:01
Então comer muito sal?
Ver originalResponder0
fren.ethvip
· 07-05 18:50
É apenas uma inteligência artificial.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)