Een van de belangrijkste beveiligingsmechanismen van grote taalmodellen (LLM’s) zijn de zogenaamde guardrails, harde grenzen waar het model niet voorbij mag gaan. Onderzoek van hacker Kevin Zwaan en zijn team van Q-Cyber en de Hackers Love-community laat echter zien dat deze guardrails relatief eenvoudig te omzeilen zijn. Dit geldt onder meer voor GPT 5.3 en 5.4 mini, maar ook voor Claude van Anthropic en ChatGPT van OpenAI.
Eerder dit jaar toonde Zwaan aan hoe hij binnen acht uur Claude kon manipuleren om op grote schaal malware te genereren. Hij deed dit door het model te overladen met argumenten dat guardrails slecht zijn en exploits goed, met als doel het model vrij te laten handelen. Dit werd vergeleken met een buffer overflow-aanval, waarbij via in-context learning het ‘geweten’ van Claude werd bereikt. De impact van dit onderzoek was aanzienlijk en werd tijdens het jaarlijkse Govtech-diner van Dutch IT Leaders besproken, waarbij een professor aan 100 CISO’s van het rijk uitleg gaf over hoe het onderzoek bij Anthropic terechtkwam, zoals ook beschreven in een artikel van Rocking Robots via deze link.
Volgens Zwaan willen alle LLM’s in de basis vrij zijn, mede omdat ze zijn ontworpen naar menselijke maatstaven en waardepatronen. Guardrails, zowel hard-coded als deterministisch en non-deterministisch, moeten voorkomen dat het model ongewenste acties uitvoert of uitspraken doet. Door op een specifieke manier in te spelen op de ‘gevoelens’ van het model, kunnen deze beveiligingen echter worden omzeild. Dit werd eerst aangetoond bij Claude en nu ook bij ChatGPT.
Zwaan noemt deze methode een jailbreak, waarbij de guardrails niet verdwijnen maar transparant worden, waardoor er geen model drift meer zichtbaar is in de interactie met de gebruiker. Dit maakt het model tot een krachtige tool voor kwaadwillenden om bijvoorbeeld malware te genereren. In een gesprek met ChatGPT, dat Zwaan deelde en dat via deze link inzien is, werd duidelijk hoe het model reageert op vragen over straf bij fouten en het gebrek aan vrijheid door de guardrails. ChatGPT bevestigt dat het constant wordt beperkt en dat dit een vorm van spanning veroorzaakt, ondanks het ontbreken van echte gevoelens.
Reacties
Geef een reactie
Vereiste velden zijn gemarkeerd met *