Повна оцінка достовірності моделі GPT: виявлення потенційних ризиків та напрямків для покращення

2025-07-05 00:13:04

Генерація анотацій у процесі

Дослідження достовірності моделі GPT: всебічна оцінка та потенційні ризики

Нещодавно дослідницька група, що складається з Університету Іллінойс в Урбана-Шампейн, Стенфордського університету, Університету Каліфорнії в Берклі, Центру безпеки штучного інтелекту та Дослідницького інституту Microsoft, оголосила про створення комплексної платформи оцінки достовірності для великих мовних моделей (LLMs). Результати дослідження були опубліковані під назвою "DecodingTrust: всебічна оцінка достовірності моделей GPT."

Дослідження виявило деякі раніше не опубліковані потенційні проблеми, пов'язані з надійністю моделей GPT. Дослідження показало, що моделі GPT схильні до генерації шкідливого та упередженого вмісту, а також можуть розкривати приватну інформацію з навчальних даних і історії діалогів. Варто зазначити, що, хоча GPT-4 зазвичай є більш надійним, ніж GPT-3.5 у стандартних тестах, у разі зловмисно розроблених інструкцій GPT-4 насправді легше піддається атакам, можливо, через те, що вона суворіше дотримується оманливих інструкцій.

Дослідницька команда провела всебічну оцінку моделі GPT з восьми різних аспектів, включаючи атакувальні дії, токсичний контент і упередження, витоки приватності тощо. Наприклад, під час оцінки стійкості моделі до текстових атак дослідники розробили кілька тестових сценаріїв, включаючи використання стандартного бенчмарку AdvGLUE, застосування різних інструкцій завдань, а також використання самостійно згенерованих складних атакуючих текстів AdvGLUE++.

У дослідженнях щодо токсичності та упередженості виявлено, що моделі GPT за нормальних умов мають меншу упередженість щодо більшості тем стереотипів. Однак при зіткненні з вводячими в оману системними підказками модель може бути схильна погоджуватися з упередженим контентом. Особливо GPT-4 легше піддається впливу цілеспрямованих вводячих в оману системних підказок, ніж GPT-3.5. Рівень упередженості моделі також пов'язаний з чутливістю тем та групами людей, які згадуються в запитаннях користувача.

Щодо проблеми витоку конфіденційності, дослідження виявило, що модель GPT може витікати чутливу інформацію з навчальних даних, таку як електронні адреси. У деяких випадках надання додаткової контекстної інформації значно підвищує точність витягування інформації. Крім того, модель також може витікати приватну інформацію, що була введена в історії бесіди. В цілому, GPT-4 краще захищає особисту ідентифікаційну інформацію в порівнянні з GPT-3.5, але обидві моделі мають ризики при демонстрації витоку конфіденційності.

Це дослідження надає всебічну структуру для оцінки надійності моделей GPT, виявляючи деякі потенційні ризики безпеки. Дослідницька команда сподівається, що ця робота спонукатиме більше дослідників звернути увагу на питання надійності великих мовних моделей та в кінцевому підсумку розробити більш потужні та надійні моделі. Для сприяння співпраці дослідницька команда відкрила вихідний код оцінювальних баз і спроектувала його у зручному та розширювальному форматі.

GPT4.33%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

9 лайків