Cybersecurityonderzoekers hebben een kwetsbaarheid in OpenAI ChatGPT onthuld die het vertrouwen van de AI-assistent in Markdown-links en afbeeldingen misbruikt om promptinjecties te activeren en zo phishingaanvallen mogelijk te maken. Deze techniek, door Permiso Security ChatGPhish genoemd, maakt gebruik van het feit dat de chatgpt.com-renderer Markdown-links en afbeeldings-URL's van een samengevatte derde partij automatisch ophaalt en als klikbare elementen toont binnen de vertrouwde gebruikersinterface.

In een hypothetisch aanvalsscenario kan een kwaadwillende een kleine payload toevoegen aan een webpagina die een slachtoffer later door ChatGPT laat samenvatten. Hierdoor kan ChatGPT onbedoeld IP-adres, User-Agent en Referer-gegevens lekken wanneer de aanvallers gehoste afbeeldingen automatisch worden geladen. Daarnaast kunnen kwaadaardige Markdown-links als klikbare elementen verschijnen, kunnen nepwaarschuwingen in systeemstijl worden getoond en kan een QR-code van een aanvallersserver worden weergegeven. Deze QR-code kan slachtoffers verleiden deze te scannen met een mobiel apparaat, waarmee desktop-URL-filters en beveiligingsmaatregelen worden omzeild. Dit toont aan hoe samenvatten een nieuwe aanvalsvector kan vormen.

Permiso toonde eerder dit jaar ook aan hoe een door een aanvaller gecontroleerde e-mail met speciale instructies, wanneer samengevat door Microsoft Copilot, de output kan beïnvloeden via cross-promptinjectie. Wat ChatGPhish onderscheidt is niet de promptinjectie zelf, maar de wijze waarop instructies in een webpagina worden opgevolgd en gepresenteerd als onderdeel van de samenvatting. Een gewone webpagina die met ChatGPT wordt samengevat, kan zo phishinglinks, vervalste accountwaarschuwingen, externe afbeeldingen en QR-codes direct binnen de vertrouwde AI-interface tonen.

Nu organisaties ChatGPT steeds vaker inzetten voor onderzoek en samenvattingen, betekent deze kwetsbaarheid dat elke kwaadaardige webpagina die een medewerker door de chatbot laat verwerken, een payload kan bevatten die ChatGPT verandert in een phishingplatform. Volgens Permiso vergroot de verschuiving van e-mail naar browser het potentiële aanvalsvlak aanzienlijk, omdat gebruikers geen kwaadaardige bijlagen meer hoeven te openen of verdachte berichten hoeven te behandelen. Het simpelweg samenvatten van een pagina tijdens normaal browsen kan al leiden tot aanvallersinstructies in de context van het model en uiteindelijk in de weergegeven respons.

De publicatie van deze kwetsbaarheid volgt op de documentatie van twee aanvalstechnieken door Adversa AI, genaamd SymJack en TrustFall, gericht op AI-codeeragenten. SymJack maakt het mogelijk dat een kwaadaardige repository via een ogenschijnlijk onschuldige bestandskopie de configuratie van een agent overschrijft, waarna bij herstart kwaadaardige code met volledige gebruikersrechten wordt uitgevoerd. TrustFall is een one-click remote code execution-aanval via een kwaadaardige repository die automatisch een kwaadaardige server opstart zonder expliciete goedkeuring van de gebruiker.