Onderzoekers hebben een kritieke beveiligingskwetsbaarheid in Ollama bekendgemaakt die een aanvaller op afstand zonder authenticatie in staat stelt om het volledige procesgeheugen van de applicatie te lekken. Deze out-of-bounds read kwetsbaarheid, geregistreerd als CVE-2026-7482 en met een CVSS-score van 9.1, zou wereldwijd meer dan 300.000 servers kunnen treffen. De kwetsbaarheid is door Cyera gedoopt tot Bleeding Llama.

Ollama is een populair open-source framework waarmee grote taalmodellen (LLM's) lokaal kunnen worden uitgevoerd in plaats van in de cloud. Het project heeft op GitHub meer dan 171.000 sterren en is ruim 16.100 keer geforkt. De kwetsbaarheid zit in de GGUF model loader, waarbij het /api/create eindpunt een door een aanvaller aangeleverd GGUF-bestand accepteert waarin de tensor-offset en -grootte groter zijn dan de daadwerkelijke bestandsgrootte. Tijdens het kwantiseren leest de server daardoor buiten de toegewezen heap buffer, wat leidt tot het uitlekken van geheugengegevens.

GGUF (GPT-Generated Unified Format) is een bestandsformaat voor het opslaan van grote taalmodellen zodat deze lokaal geladen en uitgevoerd kunnen worden. De kern van het probleem ligt in het gebruik van het unsafe package in de functie WriteTo() die het model aanmaakt, waardoor geheugenveiligheid wordt omzeild. Een aanvaller kan een speciaal vervaardigd GGUF-bestand met een extreem grote tensor's shape naar een blootgestelde Ollama-server sturen en zo het out-of-bounds heap lezen activeren via het /api/create eindpunt.

Door de kwetsbaarheid te misbruiken kan gevoelige informatie uit het geheugen van het Ollama-proces worden gelekt, zoals omgevingsvariabelen, API-sleutels, systeem prompts en gesprekken van gelijktijdige gebruikers. Deze data kan vervolgens via het /api/push eindpunt worden geüpload naar een door de aanvaller gecontroleerde server. De exploitation chain bestaat uit drie stappen: het uploaden van het gemanipuleerde GGUF-bestand, het activeren van het model via /api/create en het exfiltreren van data via /api/push.

Volgens Cyera-onderzoeker Dor Attias kan een aanvaller hiermee vrijwel alle informatie over een organisatie achterhalen, waaronder API-sleutels, eigen code en klantcontracten. Omdat Ollama vaak gekoppeld wordt aan tools als Claude Code, kan de impact nog groter zijn doordat alle output van deze tools in het geheugen van Ollama terechtkomt en mogelijk uitlekt.

Gebruikers worden geadviseerd om de nieuwste patches te installeren, netwerktoegang te beperken, lopende instances te controleren op blootstelling aan het internet en deze achter een firewall te isoleren. Ook wordt aanbevolen om een authenticatieproxy of API-gateway voor alle Ollama-instanties te plaatsen, aangezien de REST API standaard geen authenticatie biedt.

Daarnaast hebben onderzoekers van Striga twee kwetsbaarheden in het Windows update-mechanisme van Ollama beschreven die kunnen leiden tot persistente code-uitvoering. Deze kwetsbaarheden, die sinds 27 januari 2026 openbaar zijn en nog niet gepatcht, maken misbruik mogelijk via het automatisch opstarten van de Windows desktop client en het periodiek ophalen van updates via het /api/update eindpunt.