Onderzoekers van Anthropic, het UK AI Security Institute en het Alan Turing Institute hebben vastgesteld dat grote taalmodellen (LLM’s) al kwetsbaar kunnen zijn voor manipulatie met een relatief kleine hoeveelheid ‘poisoned data’. Uit recente experimenten bleek dat ongeveer 250 kwaadaardige documenten voldoende zijn om een backdoor in het model te creëren, ongeacht de grootte van het model of de hoeveelheid data waarop het getraind is.

Deze ontdekking wijst erop dat zelfs een minimale injectie van schadelijke data tijdens de trainingsfase al aanzienlijke gevolgen kan hebben voor de veiligheid en integriteit van AI-systemen. De onderzoekers benadrukken dat deze kwetsbaarheid het risico verhoogt dat kwaadwillenden belangrijke AI-toepassingen kunnen beïnvloeden of manipuleren, wat gevolgen kan hebben voor vertrouwen en betrouwbaarheid in deze technologieën. De bevindingen onderstrepen het belang van het ontwikkelen van robuuste detectie- en preventiemechanismen om dergelijke aanvallen te voorkomen.