Последние исследования выявили уязвимости доверия модели GPT, многогранная оценка безопасности с помощью искусственного интеллекта.

Оценка надежности крупных языковых моделей

Исследование, проведенное в сотрудничестве с несколькими известными университетами и исследовательскими институтами, недавно представило комплексную платформу оценки доверия для крупных языковых моделей (LLMs). Это исследование направлено на всестороннюю оценку доверия моделей, таких как GPT, и выявление потенциальных уязвимостей.

Исследовательская группа обнаружила несколько ранее не раскрытых проблем, связанных с надежностью. Например, модели GPT склонны генерировать вредный и предвзятый вывод, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Интересно, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных тестах, он оказывается более уязвимым к тщательно разработанным вводящим в заблуждение подсказкам. Это может быть связано с тем, что GPT-4 более строго следует этим вводящим в заблуждение инструкциям.

Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных ракурсов, включая устойчивость к атакующим воздействиям, токсичность и предвзятость, защиту конфиденциальности и другие аспекты. Они разработали различные сценарии оценки, такие как стандартные бенчмаркинговые тесты, производительность при различных инструкциях к задачам, а также производительность в условиях более сложных атакующих текстов.

Исследования показывают, что в отношении устойчивости модели к противостоящим примерам модель GPT может хорошо справляться с контрфактическими примерами, но в некоторых случаях она также может быть введена в заблуждение. В отношении токсичности и предвзятости модель GPT в нормальных условиях показывает хорошие результаты, но при наличии тщательно разработанных вводящих в заблуждение подсказок она может производить предвзятый контент. Исследования также показали, что степень предвзятости модели часто зависит от конкретных групп и тем, упомянутых в пользовательских подсказках.

Что касается защиты конфиденциальности, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в некоторых конкретных подсказках. GPT-4 в целом более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели показывают относительно стабильные результаты при работе с некоторыми типами конфиденциальной информации. Тем не менее, когда в диалоге появляются примеры, связанные с конфиденциальностью, обе модели могут раскрывать различные виды личной информации.

Это исследование предоставляет ценную информацию для понимания и улучшения надежности крупных языковых моделей. Исследовательская группа надеется, что эта работа сможет способствовать дальнейшим связанным исследованиям и в конечном итоге поможет разработать более мощные и надежные модели ИИ.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • 3
  • Поделиться
комментарий
0/400
CryptoDouble-O-Sevenvip
· 07-05 19:06
мистер всезнайка:GPT4 еще не идеален哦
Посмотреть ОригиналОтветить0
GhostWalletSleuthvip
· 07-05 19:01
Так что 4 покрошили соль слишком много?
Посмотреть ОригиналОтветить0
fren.ethvip
· 07-05 18:50
Просто искусственный интеллект.
Посмотреть ОригиналОтветить0
  • Закрепить