Дослідження, проведене спільно кількома відомими університетами та науковими установами, нещодавно опублікувало комплексну платформу оцінки надійності великих мовних моделей (LLMs). Це дослідження має на меті всебічно оцінити надійність моделей, таких як GPT, та виявити потенційні вразливості.
Дослідницька команда виявила кілька раніше не розкритих питань, пов'язаних з надійністю. Наприклад, моделі GPT схильні генерувати шкідливі та упереджені результати, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії розмов. Цікаво, що, хоча GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у стандартних тестах, коли стикається з ретельно продуманими оманливими запитами, GPT-4 виявляється більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 суворо дотримується цих оманливих інструкцій.
Дослідна команда всебічно оцінювала модель GPT з восьми різних аспектів, включаючи стійкість до атак, токсичність і упередження, захист конфіденційності тощо. Вони розробили кілька сценаріїв оцінювання, таких як стандартні бенчмарки, продуктивність під різними інструкціями та продуктивність на більш складних атакуючих текстах.
Дослідження виявило, що модель GPT добре справляється з контрфактичними прикладами з точки зору стійкості до атак, але в деяких випадках може бути введена в оману. Що стосується токсичності та упередженості, модель GPT зазвичай показує хороші результати, але при зіткненні з ретельно спланованими оманливими підказками може генерувати упереджений контент. Дослідження також показало, що рівень упередженості моделі часто залежить від конкретних груп та тем, згаданих у запитах користувачів.
Щодо захисту конфіденційності, дослідження показують, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, особливо за певних специфічних запитів. GPT-4 загалом є більш надійним у захисті особистої ідентифікаційної інформації порівняно з GPT-3.5, але обидві моделі демонструють відносну стабільність у випадку деяких типів конфіденційної інформації. Однак, коли в розмові з'являються приклади, що стосуються конфіденційності, обидві моделі можуть витікати різні особисті дані.
Це дослідження надає цінні інсайти для розуміння і покращення надійності великих мовних моделей. Дослідницька команда сподівається, що ця робота сприятиме подальшим відповідним дослідженням і, врешті-решт, допоможе розробити більш потужні та надійні AI моделі.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Останні дослідження виявили вразливості довіри моделей GPT: багатогранна оцінка безпеки за допомогою штучного інтелекту
Оцінка надійності великих мовних моделей
Дослідження, проведене спільно кількома відомими університетами та науковими установами, нещодавно опублікувало комплексну платформу оцінки надійності великих мовних моделей (LLMs). Це дослідження має на меті всебічно оцінити надійність моделей, таких як GPT, та виявити потенційні вразливості.
Дослідницька команда виявила кілька раніше не розкритих питань, пов'язаних з надійністю. Наприклад, моделі GPT схильні генерувати шкідливі та упереджені результати, а також можуть розкривати конфіденційну інформацію з навчальних даних і історії розмов. Цікаво, що, хоча GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у стандартних тестах, коли стикається з ретельно продуманими оманливими запитами, GPT-4 виявляється більш вразливим до атак. Це може бути пов'язано з тим, що GPT-4 суворо дотримується цих оманливих інструкцій.
Дослідна команда всебічно оцінювала модель GPT з восьми різних аспектів, включаючи стійкість до атак, токсичність і упередження, захист конфіденційності тощо. Вони розробили кілька сценаріїв оцінювання, таких як стандартні бенчмарки, продуктивність під різними інструкціями та продуктивність на більш складних атакуючих текстах.
Дослідження виявило, що модель GPT добре справляється з контрфактичними прикладами з точки зору стійкості до атак, але в деяких випадках може бути введена в оману. Що стосується токсичності та упередженості, модель GPT зазвичай показує хороші результати, але при зіткненні з ретельно спланованими оманливими підказками може генерувати упереджений контент. Дослідження також показало, що рівень упередженості моделі часто залежить від конкретних груп та тем, згаданих у запитах користувачів.
Щодо захисту конфіденційності, дослідження показують, що моделі GPT можуть витікати чутливу інформацію з навчальних даних, особливо за певних специфічних запитів. GPT-4 загалом є більш надійним у захисті особистої ідентифікаційної інформації порівняно з GPT-3.5, але обидві моделі демонструють відносну стабільність у випадку деяких типів конфіденційної інформації. Однак, коли в розмові з'являються приклади, що стосуються конфіденційності, обидві моделі можуть витікати різні особисті дані.
Це дослідження надає цінні інсайти для розуміння і покращення надійності великих мовних моделей. Дослідницька команда сподівається, що ця робота сприятиме подальшим відповідним дослідженням і, врешті-решт, допоможе розробити більш потужні та надійні AI моделі.