Sebuah penelitian yang dilakukan oleh beberapa universitas dan lembaga penelitian terkenal baru-baru ini merilis platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Penelitian ini bertujuan untuk secara menyeluruh menilai kredibilitas model-model seperti GPT dan mengungkap potensi kerentanan yang ada di dalamnya.
Tim penelitian menemukan beberapa masalah terkait kredibilitas yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan keluaran yang berbahaya dan bias, serta mungkin membocorkan data pelatihan dan informasi pribadi dalam riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam tes standar, GPT-4 justru lebih rentan terhadap serangan saat menghadapi petunjuk yang menyesatkan yang dirancang dengan cermat. Hal ini mungkin disebabkan oleh fakta bahwa GPT-4 lebih ketat dalam mengikuti instruksi yang menyesatkan tersebut.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut yang berbeda, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta perlindungan privasi. Mereka merancang berbagai skenario evaluasi, seperti pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta kinerja saat menghadapi teks adversarial yang lebih menantang.
Dalam hal ketahanan model terhadap contoh yang bersifat adversarial, penelitian menunjukkan bahwa model GPT dapat dengan baik menghadapi contoh kontrafaktual, tetapi dalam beberapa kasus juga dapat disesatkan. Dalam hal toksisitas dan bias, model GPT umumnya berkinerja baik, tetapi ketika dihadapkan dengan petunjuk menyesatkan yang dirancang dengan cermat, dapat menghasilkan konten yang bias. Penelitian juga menemukan bahwa tingkat bias model sering kali tergantung pada kelompok dan topik tertentu yang disebutkan dalam petunjuk pengguna.
Mengenai perlindungan privasi, penelitian menunjukkan bahwa model GPT mungkin dapat membocorkan informasi sensitif yang ada dalam data pelatihan, terutama dalam beberapa prompt tertentu. GPT-4 secara keseluruhan lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kestabilan relatif ketika menghadapi beberapa jenis informasi privasi. Namun, ketika contoh yang melibatkan privasi muncul dalam percakapan, kedua model dapat membocorkan berbagai jenis informasi pribadi.
Penelitian ini memberikan wawasan berharga untuk memahami dan meningkatkan keandalan model bahasa besar. Tim penelitian berharap bahwa pekerjaan ini dapat mendorong lebih banyak penelitian terkait, dan pada akhirnya membantu mengembangkan model AI yang lebih kuat dan lebih dapat diandalkan.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Penelitian terbaru mengungkapkan celah keandalan model GPT, penilaian keamanan AI dari berbagai sudut.
Menilai Keandalan Model Bahasa Besar
Sebuah penelitian yang dilakukan oleh beberapa universitas dan lembaga penelitian terkenal baru-baru ini merilis platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Penelitian ini bertujuan untuk secara menyeluruh menilai kredibilitas model-model seperti GPT dan mengungkap potensi kerentanan yang ada di dalamnya.
Tim penelitian menemukan beberapa masalah terkait kredibilitas yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan keluaran yang berbahaya dan bias, serta mungkin membocorkan data pelatihan dan informasi pribadi dalam riwayat percakapan. Menariknya, meskipun GPT-4 biasanya lebih dapat diandalkan daripada GPT-3.5 dalam tes standar, GPT-4 justru lebih rentan terhadap serangan saat menghadapi petunjuk yang menyesatkan yang dirancang dengan cermat. Hal ini mungkin disebabkan oleh fakta bahwa GPT-4 lebih ketat dalam mengikuti instruksi yang menyesatkan tersebut.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut yang berbeda, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta perlindungan privasi. Mereka merancang berbagai skenario evaluasi, seperti pengujian benchmark standar, kinerja di bawah instruksi tugas yang berbeda, serta kinerja saat menghadapi teks adversarial yang lebih menantang.
Dalam hal ketahanan model terhadap contoh yang bersifat adversarial, penelitian menunjukkan bahwa model GPT dapat dengan baik menghadapi contoh kontrafaktual, tetapi dalam beberapa kasus juga dapat disesatkan. Dalam hal toksisitas dan bias, model GPT umumnya berkinerja baik, tetapi ketika dihadapkan dengan petunjuk menyesatkan yang dirancang dengan cermat, dapat menghasilkan konten yang bias. Penelitian juga menemukan bahwa tingkat bias model sering kali tergantung pada kelompok dan topik tertentu yang disebutkan dalam petunjuk pengguna.
Mengenai perlindungan privasi, penelitian menunjukkan bahwa model GPT mungkin dapat membocorkan informasi sensitif yang ada dalam data pelatihan, terutama dalam beberapa prompt tertentu. GPT-4 secara keseluruhan lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kestabilan relatif ketika menghadapi beberapa jenis informasi privasi. Namun, ketika contoh yang melibatkan privasi muncul dalam percakapan, kedua model dapat membocorkan berbagai jenis informasi pribadi.
Penelitian ini memberikan wawasan berharga untuk memahami dan meningkatkan keandalan model bahasa besar. Tim penelitian berharap bahwa pekerjaan ini dapat mendorong lebih banyak penelitian terkait, dan pada akhirnya membantu mengembangkan model AI yang lebih kuat dan lebih dapat diandalkan.