Cloudflare-onderzoek: Aanvallers gebruiken promptinjectie om AI-modellen te misleiden

Cloudflare-onderzoek: Aanvallers gebruiken promptinjectie om AI-modellen te misleiden

Cloudflare’s Cloud­force One team heeft een onder­zoek uitge­voerd naar zeven AI-modellen om te zien hoe hun rede­ne­ring werkt en hoe cyber­cri­mi­nelen deze kunnen omzeilen. Uit het rapport blijkt dat aanval­lers nu misbruik maken van lokmid­delen, tekst­blokken die zijn ontworpen om AI-modellen emoti­o­neel te mani­pu­leren of te verwarren, om secu­rity-audi­tors ertoe te verleiden kwaad­aar­dige code op de white­list te zetten. 

Naar­mate orga­ni­sa­ties meer vertrouwen op auto­nome systemen en LLM’s (Learning Learning Models), veran­dert de bevei­li­gings­pe­ri­meter. Het aanvals­op­per­vlak is al uitge­breid tot buiten het netwerk, met een focus op de rede­ne­ring van het model zelf. Wat gebeurt er als AI-modellen die cruciale onder­delen van de orga­ni­satie aansturen, worden gema­ni­pu­leerd?

Hier­onder volgt een over­zicht van opval­lende bevin­dingen:

  • 1%-omzeilingszone: subtiele mislei­ding is het meest effec­tief. Als secu­ri­ty­lok­mid­delen, oftewel opmer­kingen die beweren dat de code onscha­de­lijk is, minder dan 1% van een bestand uitmaken, daalt het detec­tie­per­cen­tage van de AI tot 53%. In dit geval sturen de lokmid­delen subtiel het rede­ne­rings­ver­mogen van het model aan zonder dat het te veel argwaan wekt.
  • De U‑curve van mislei­ding: matige pogingen om AI te misleiden werken vaak, maar te veel protest (meer dan 1000 opmer­kingen) acti­veert een herha­ling­s­alarm waar­door het AI-model de code als frau­du­leus markeert.
  • De contextval: de grootste bedrei­ging is niet taal­kundig, maar struc­tu­reel. Door mislei­dende payloads te verbergen in grote bibli­o­theek­bun­dels (zoals React SDK’s), brachten aanval­lers het detec­tie­per­cen­tage terug tot 12%, waar­door de focus van de AI effec­tief werd uitgeput.
  • Lingu­ïs­ti­sche profi­le­ring: uit het onder­zoek bleek dat de AI-modellen stereo­typen hebben ontwik­keld. Sommige modellen markeerden bijvoor­beeld Russi­sche of Chinese opmer­kingen als signalen met een hoog risico, onge­acht de werke­lijke functie van de code, terwijl ze talen zoals het Ests meer vertrouwden.

Het Cloud­force One-onder­zoek is een tech­ni­sche reali­teits­check. Terwijl de bericht­ge­ving over Mythos gaat over niveaus van model­ver­fij­ning, zoals de ontdek­king van zero-day-vulne­ra­bi­li­ties, bena­drukt dit onder­zoek het belang om niet over het hoofd te zien dat zelfs een grens­ver­leg­gend model met rede­ne­ringen op Mythos-niveau geneu­tra­li­seerd of misleid kan worden.

redactie@ai-visie

4 mei 2026 - 16:05

WEERGAVEN

0 Reacties

Gerelateerde berichten

Prem AI komt uit stealth met Fluso en zet in op soevereine AI voor gevoelige bedrijfsdata

Prem AI komt uit stealth met Fluso en zet in op soevereine AI voor gevoelige bedrijfsdata

Gartner: meeste mainframe-exitprojecten lopen vast door overschatting van generatieve AI

Gartner: meeste mainframe-exitprojecten lopen vast door overschatting van generatieve AI

‘Logistieke sector hoeft niet wakker te liggen van AI’

‘Logistieke sector hoeft niet wakker te liggen van AI’

Nog geen gerelateerde berichten...

0 Reactie(s)

0 Reacties

Plaats Een Reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Share This