Cloudflare-onderzoek: Aanvallers gebruiken promptinjectie om AI-modellen te misleiden

Cloudflare-onderzoek: Aanvallers gebruiken promptinjectie om AI-modellen te misleiden

Cloudflare’s Cloud­force One team heeft een onder­zoek uitge­voerd naar zeven AI-modellen om te zien hoe hun rede­ne­ring werkt en hoe cyber­cri­mi­nelen deze kunnen omzeilen. Uit het rapport blijkt dat aanval­lers nu misbruik maken van lokmid­delen, tekst­blokken die zijn ontworpen om AI-modellen emoti­o­neel te mani­pu­leren of te verwarren, om secu­rity-audi­tors ertoe te verleiden kwaad­aar­dige code op de white­list te zetten. 

Naar­mate orga­ni­sa­ties meer vertrouwen op auto­nome systemen en LLM’s (Learning Learning Models), veran­dert de bevei­li­gings­pe­ri­meter. Het aanvals­op­per­vlak is al uitge­breid tot buiten het netwerk, met een focus op de rede­ne­ring van het model zelf. Wat gebeurt er als AI-modellen die cruciale onder­delen van de orga­ni­satie aansturen, worden gema­ni­pu­leerd?

Hier­onder volgt een over­zicht van opval­lende bevin­dingen:

  • 1%-omzeilingszone: subtiele mislei­ding is het meest effec­tief. Als secu­ri­ty­lok­mid­delen, oftewel opmer­kingen die beweren dat de code onscha­de­lijk is, minder dan 1% van een bestand uitmaken, daalt het detec­tie­per­cen­tage van de AI tot 53%. In dit geval sturen de lokmid­delen subtiel het rede­ne­rings­ver­mogen van het model aan zonder dat het te veel argwaan wekt.
  • De U‑curve van mislei­ding: matige pogingen om AI te misleiden werken vaak, maar te veel protest (meer dan 1000 opmer­kingen) acti­veert een herha­ling­s­alarm waar­door het AI-model de code als frau­du­leus markeert.
  • De contextval: de grootste bedrei­ging is niet taal­kundig, maar struc­tu­reel. Door mislei­dende payloads te verbergen in grote bibli­o­theek­bun­dels (zoals React SDK’s), brachten aanval­lers het detec­tie­per­cen­tage terug tot 12%, waar­door de focus van de AI effec­tief werd uitgeput.
  • Lingu­ïs­ti­sche profi­le­ring: uit het onder­zoek bleek dat de AI-modellen stereo­typen hebben ontwik­keld. Sommige modellen markeerden bijvoor­beeld Russi­sche of Chinese opmer­kingen als signalen met een hoog risico, onge­acht de werke­lijke functie van de code, terwijl ze talen zoals het Ests meer vertrouwden.

Het Cloud­force One-onder­zoek is een tech­ni­sche reali­teits­check. Terwijl de bericht­ge­ving over Mythos gaat over niveaus van model­ver­fij­ning, zoals de ontdek­king van zero-day-vulne­ra­bi­li­ties, bena­drukt dit onder­zoek het belang om niet over het hoofd te zien dat zelfs een grens­ver­leg­gend model met rede­ne­ringen op Mythos-niveau geneu­tra­li­seerd of misleid kan worden.

redactie@ai-visie

4 mei 2026 - 16:05

WEERGAVEN

0 Reacties

Gerelateerde berichten

SAP en Expertum moderniseren integratielandschap Ecotone

SAP en Expertum moderniseren integratielandschap Ecotone

Van agency naar techbedrijf: Snakeware richt zich volledig op data‑ en AI‑architectuur

Van agency naar techbedrijf: Snakeware richt zich volledig op data‑ en AI‑architectuur

HPE introduceert self-driving netwerken om AI-native processen versnellen

HPE introduceert self-driving netwerken om AI-native processen versnellen

Nog geen gerelateerde berichten...

0 Reactie(s)

0 Reacties

Plaats Een Reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Share This