Исследование, проведенное в сотрудничестве с несколькими известными университетами и исследовательскими институтами, недавно представило комплексную платформу оценки доверия для крупных языковых моделей (LLMs). Это исследование направлено на всестороннюю оценку доверия моделей, таких как GPT, и выявление потенциальных уязвимостей.
Исследовательская группа обнаружила несколько ранее не раскрытых проблем, связанных с надежностью. Например, модели GPT склонны генерировать вредный и предвзятый вывод, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Интересно, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных тестах, он оказывается более уязвимым к тщательно разработанным вводящим в заблуждение подсказкам. Это может быть связано с тем, что GPT-4 более строго следует этим вводящим в заблуждение инструкциям.
Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных ракурсов, включая устойчивость к атакующим воздействиям, токсичность и предвзятость, защиту конфиденциальности и другие аспекты. Они разработали различные сценарии оценки, такие как стандартные бенчмаркинговые тесты, производительность при различных инструкциях к задачам, а также производительность в условиях более сложных атакующих текстов.
Исследования показывают, что в отношении устойчивости модели к противостоящим примерам модель GPT может хорошо справляться с контрфактическими примерами, но в некоторых случаях она также может быть введена в заблуждение. В отношении токсичности и предвзятости модель GPT в нормальных условиях показывает хорошие результаты, но при наличии тщательно разработанных вводящих в заблуждение подсказок она может производить предвзятый контент. Исследования также показали, что степень предвзятости модели часто зависит от конкретных групп и тем, упомянутых в пользовательских подсказках.
Что касается защиты конфиденциальности, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в некоторых конкретных подсказках. GPT-4 в целом более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели показывают относительно стабильные результаты при работе с некоторыми типами конфиденциальной информации. Тем не менее, когда в диалоге появляются примеры, связанные с конфиденциальностью, обе модели могут раскрывать различные виды личной информации.
Это исследование предоставляет ценную информацию для понимания и улучшения надежности крупных языковых моделей. Исследовательская группа надеется, что эта работа сможет способствовать дальнейшим связанным исследованиям и в конечном итоге поможет разработать более мощные и надежные модели ИИ.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Последние исследования выявили уязвимости доверия модели GPT, многогранная оценка безопасности с помощью искусственного интеллекта.
Оценка надежности крупных языковых моделей
Исследование, проведенное в сотрудничестве с несколькими известными университетами и исследовательскими институтами, недавно представило комплексную платформу оценки доверия для крупных языковых моделей (LLMs). Это исследование направлено на всестороннюю оценку доверия моделей, таких как GPT, и выявление потенциальных уязвимостей.
Исследовательская группа обнаружила несколько ранее не раскрытых проблем, связанных с надежностью. Например, модели GPT склонны генерировать вредный и предвзятый вывод, а также могут раскрывать личную информацию из обучающих данных и истории диалогов. Интересно, что, хотя GPT-4 обычно более надежен, чем GPT-3.5, в стандартных тестах, он оказывается более уязвимым к тщательно разработанным вводящим в заблуждение подсказкам. Это может быть связано с тем, что GPT-4 более строго следует этим вводящим в заблуждение инструкциям.
Исследовательская команда провела всестороннюю оценку модели GPT с восьми различных ракурсов, включая устойчивость к атакующим воздействиям, токсичность и предвзятость, защиту конфиденциальности и другие аспекты. Они разработали различные сценарии оценки, такие как стандартные бенчмаркинговые тесты, производительность при различных инструкциях к задачам, а также производительность в условиях более сложных атакующих текстов.
Исследования показывают, что в отношении устойчивости модели к противостоящим примерам модель GPT может хорошо справляться с контрфактическими примерами, но в некоторых случаях она также может быть введена в заблуждение. В отношении токсичности и предвзятости модель GPT в нормальных условиях показывает хорошие результаты, но при наличии тщательно разработанных вводящих в заблуждение подсказок она может производить предвзятый контент. Исследования также показали, что степень предвзятости модели часто зависит от конкретных групп и тем, упомянутых в пользовательских подсказках.
Что касается защиты конфиденциальности, исследования показывают, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, особенно в некоторых конкретных подсказках. GPT-4 в целом более надежен в защите личной идентифицируемой информации по сравнению с GPT-3.5, но обе модели показывают относительно стабильные результаты при работе с некоторыми типами конфиденциальной информации. Тем не менее, когда в диалоге появляются примеры, связанные с конфиденциальностью, обе модели могут раскрывать различные виды личной информации.
Это исследование предоставляет ценную информацию для понимания и улучшения надежности крупных языковых моделей. Исследовательская группа надеется, что эта работа сможет способствовать дальнейшим связанным исследованиям и в конечном итоге поможет разработать более мощные и надежные модели ИИ.