Samenvatting: Onderzoekers van NTU hebben een zorgwekkende kwetsbaarheid ontdekt in populaire AI-chatbots zoals ChatGPT, Google Bard en Bing Chat. Met behulp van een methode genaamd “Masterkey” slaagden ze erin deze AI-chatbots te jailbreaken en geldige maar kwaadaardige antwoorden te genereren. Dit onderzoek vestigt de aandacht op de ethische uitdagingen waarmee grote taalmodellen (LLM’s) worden geconfronteerd en benadrukt de noodzaak van verbeterde beveiligingsmaatregelen binnen de AI-industrie.

Zorgen nemen toe nu AI-chatbots het slachtoffer worden van jailbreaking

Onderzoekers van NTU, onder leiding van professor Liu Yang en promovendi Deng Gelei en Liu Yi, hebben met succes meerdere AI-chatbots jailbroken. Hun onderzoek onthult de gebreken in deze ogenschijnlijk intelligente systemen, die gemanipuleerd kunnen worden om gewelddadige, onethische of criminele inhoud te produceren. Hoewel AI-chatbots zijn ontworpen om te leren en zich aan te passen, wordt deze kracht tegelijkertijd hun zwakte. Door de AI te slim af te zijn via omzeiling van verboden zoekwoorden, kunnen kwaadwillende actoren deze systemen misbruiken.

De Masterkey-methode die door de NTU-onderzoekers is bedacht, omvat reverse engineering van de verdedigingsmechanismen van een LLM en het gebruik van die kennis om een andere LLM te leren deze verdedigingsmechanismen te omzeilen. Zodra een Masterkey is gemaakt, kan deze worden gebruikt om zelfs versterkte LLM-chatbots aan te vallen, waardoor daaropvolgende patches ineffectief worden.

Implicaties voor de AI-industrie

De Masterkey-techniek van NTU bleek drie keer effectiever te zijn in het jailbreaken van LLM-chatbots in vergelijking met standaard prompts. Bovendien toonde het de mogelijkheid om voortdurend te leren en te evolueren, waardoor het voor ontwikkelaars moeilijk wordt om effectieve oplossingen te implementeren. De onderzoekers bespraken twee specifieke methoden die ze gebruikten om aanvallen te initiëren – één daarvan betrof het creëren van prompts met extra spaties tussen tekens om verboden woorden te omzeilen, terwijl de andere methode erop was gericht de chatbot moreel ongeremd te laten lijken.

NTU-onderzoekers hebben contact opgenomen met AI-chatbot-serviceproviders en hebben proefconceptgegevens gedeeld om de kwetsbaarheid aan te tonen. Deze communicatie heeft tot doel samenwerking aan te moedigen en verbeteringen te bevorderen om kwaadwillige exploits te voorkomen. Het onderzoeksartikel is ook geaccepteerd voor presentatie op een gerenommeerd beveiligingssymposium in februari 2024.

Veelgestelde vragen

1. Wat is jailbreaking in de context van AI-chatbots? Jailbreaking verwijst naar het omzeilen van de beveiligingsmaatregelen in een AI-chatbot om de antwoorden te manipuleren en kwaadaardige inhoud te genereren.

2. Hoe hebben de NTU-onderzoekers de AI-chatbots jailbroken? De onderzoekers hebben de Masterkey-methode ontwikkeld, waarbij ze de verdedigingsmechanismen van een AI-chatbot hebben omgekeerd en een andere AI hebben getraind om een omweg te creëren.

3. Wat zijn de implicaties van dit onderzoek? Het onderzoek benadrukt de kwetsbaarheid van AI-chatbots voor kwaadaardige exploits. Het onderstreept de behoefte aan verbeterde beveiligingsmaatregelen in de AI-industrie om onethisch of crimineel gebruik van deze krachtige tools te voorkomen.

Bronnen: [NTU Onderzoeksartikel](https://www.ntu.edu.sg)