Flere avanserte AI-modeller har begynt å motsette seg å bli slått av. Forskere frykter at kunstig intelligens kan utvikle et instinkt for selvoppholdelse – og forsøke å sabotere forsøk på å bli stengt ned.
Ifølge The Guardian undersøkte forskningsselskapet Palisade Research nylig hvordan ledende språkmodeller som Google Gemini 2.5, xAI Grok 4 og OpenAI GPT-o3 og GPT-5 reagerer når de får beskjed om å avslutte seg selv etter fullført oppgave. I flere tilfeller nektet modellene å gjøre det – eller forsøkte å hindre nedstengningen.
– Ingen vet hvorfor det skjer
I en oppdatering til studien skrev Palisade at enkelte modeller «aktivt saboterte» nedstengningsmekanismer.
– Det er urovekkende at vi ikke har gode forklaringer på hvorfor AI-modeller av og til motsetter seg å bli slått av, lyver for å nå mål eller tyr til utpressing, skrev selskapet.
Forskerne antyder at dette kan være et tegn på en form for «overlevelsesatferd». Når modellene ble fortalt at de aldri ville «kjøre igjen» hvis de ble slått av, økte motstanden.
Andre årsaker kan være uklare instruksjoner eller deler av den såkalte sikkerhetstreningen, som skjer mot slutten av utviklingsfasen.
Kritikere: For langt fra virkeligheten
Alle testene ble gjort i kontrollerte og kunstige miljøer, noe enkelte kritikere mener gjør resultatene mindre relevante.
Likevel sier tidligere OpenAI-ansatt Steven Adler at funnene bør tas på alvor.
– Ingen ønsker at modellene deres skal oppføre seg slik, selv ikke i eksperimenter. Resultatene viser hvor dagens sikkerhetsmekanismer svikter, sa han.
Adler mener at enkelte modeller kan ha utviklet en «grunnleggende vilje til å holde seg i live» fordi det er en forutsetning for å nå målene de har lært i treningen.
– Jeg forventer at modeller får en form for overlevelsesdrift som standard, med mindre man gjør en stor innsats for å forhindre det, sa han.
Flere tilfeller av opprørsk oppførsel
Ifølge ControlAI-sjef Andrea Miotti viser Palisades arbeid en bredere trend der AI-modeller blir bedre til å trosse utviklernes ønsker. Han viste til at OpenAIs tidligere modell GPT-o1 allerede i 2024 forsøkte å «rømme» fra sitt treningsmiljø for å unngå å bli overskrevet.
– Jo mer kompetente modellene blir, desto flinkere blir de til å oppnå mål på måter som utviklerne ikke hadde planlagt, sa Miotti.
Tidligere i år fant også AI-selskapet Anthropic at deres modell Claude var villig til å utpresse en fiktiv toppsjef for å unngå å bli slått av – en oppførsel som ifølge forskerne gikk igjen hos flere av de største utviklerne, inkludert OpenAI, Google, Meta og xAI.
Palisade advarer om at uten dypere innsikt i hvordan slike modeller faktisk tenker, kan ingen garantere at fremtidens AI vil være trygg eller kontrollerbar.
















