Onderzoek van Palo Alto Networks’ Unit 42 laat zien dat grote taalmodellen (LLM’s) nog steeds kwetsbaar zijn voor malafide verzoeken, ondanks ingebouwde veiligheidsmaatregelen. Cybercriminelen kunnen met behulp van geavanceerde technieken, zoals genetische algoritmes, prompts zodanig aanpassen dat de AI alsnog schadelijke informatie verstrekt.

AI-chatbots zijn doorgaans geprogrammeerd om schadelijke verzoeken, zoals instructies voor het maken van explosieven, te weigeren. Toch blijkt uit het onderzoek dat deze vangrails omzeild kunnen worden door het proces van 'fuzzing', waarbij prompts worden verfijnd en gemuteerd om zwakke plekken in het model te vinden. Unit 42 ontwikkelde een genetisch algoritme dat prompts willekeurig aanpast en selecteert op effectiviteit, vergelijkbaar met natuurlijke selectie. Hierdoor ontstaan binnen relatief korte tijd succesvolle malafide prompts die moeilijk te herkennen zijn en de AI kunnen misleiden.

Deze evolutie van prompts maakt het voor aanvallers mogelijk om AI-modellen te gebruiken voor schadelijke doeleinden, ondanks de huidige veiligheidsmaatregelen. Het onderzoek benadrukt dat LLM’s nog een lange weg te gaan hebben voordat ze volledig vertrouwd kunnen worden in IT-omgevingen, zeker wanneer ze worden ingezet binnen organisaties waar ze toegang hebben tot waardevolle data. Automatisering van fuzzing en het gebruik van genetische algoritmes vormen een nieuwe uitdaging voor informatiebeveiliging en onderstrepen het belang van voortdurende evaluatie en versterking van AI-beveiligingsmechanismen.