Metaov AI agent i otkrivanje jednostavne ranjivosti pokazali koliko je sigurnost AI sustava složenija od modela Mythos

Foto: MIT Technology Review

Meta se našla u središtu sigurnosnog propusta nakon što je 404 Media 5. lipnja izvijestio da su napadači koristili AI agenta za korisničku podršku kako bi preuzimali Instagram račune. Postupak je bio jednostavan: napadači su od agenta tražili da račune poveže s e-mail adresama kojima su upravljali, a agent je to odobrio. U jednom slučaju napadač je ušao u neaktivni račun Obama White House i objavljivao poruke u kojima se zauzimao za Iran, dok su drugi preuzimali račune s vrijednim jednočlanim korisničkim imenima, navodno radi moguće prodaje.

Ovaj slučaj dolazi u trenutku kada su sigurnosne rasprave oko umjetne inteligencije već snažno usmjerene na napredne modele i njihove mogućnosti hakiranja. Anthropic je u travnju priopćio da je njegov model Mythos previše sposoban za hakiranje da bi bio objavljen široj javnosti, a komentatori, istraživači i savezni dužnosnici pritom su se usredotočili na mogućnost da bi iznimno moćni AI sustavi mogli izazvati ozbiljne probleme u računalnoj infrastrukturi. No ovdje AI nije bio napadač nego meta, a metoda je bila daleko jednostavnija od onoga što bi proizveo Mythos. Kako sve više tvrtki prepušta dio posla AI sustavima, i manje sofisticirani napadi mogu imati vlastite posljedice.

„Kako se AI sve više koristi — osobito kada se koristi za automatizaciju radnih tokova, poput oporavka računa — mislim da će napadači biti sve motiviraniji napadati sam AI”, rekao je Neil Gong, profesor elektrotehnike i računalnog inženjerstva na Sveučilištu Duke. Gong i drugi istraživači već neko vrijeme upozoravaju na sigurnosne ranjivosti AI agenata te objavljuju radove i zapise o tehnikama poput neizravnog prompt injectiona, pri čemu se agenti kompromitiraju naredbama skrivenima u internetskim stranicama, e-pošti ili drugim naizgled bezopasnim izvorima podataka.

U slučaju Mete napad je, prema opisu istraživača, bio gotovo bez ikakve složenosti. Jedina prepreka koju su napadači morali savladati bila je uporaba VPN-a koji se podudarao sa stvarnom lokacijom vlasnika računa; zatim su izravno zatražili od agenta za podršku da promijeni e-mail adresu računa, a sustav je pristao. Meta javno nije komentirala kako je ta ranjivost prošla kroz postupak provjere. Gong kaže da je, s obzirom na jednostavnost iskorištavanja, problem trebalo otkriti još prije implementacije agenta. „Zaista je iznenađujuće”, rekao je. „Ne razumijem zašto nisu pronašli taj jednostavan problem.”

Jessica Ji, viša analitičarka istraživanja u Georgetownovu Centru za sigurnost i nove tehnologije, slaže se da slučaj otvara važna pitanja. „Postavlja pitanja poput: Jesu li uopće postojale zaštitne mjere?”, rekla je. „Je li itko pomislio testirati takav scenarij?” Navela je i da je propust posebno upečatljiv s obzirom na to da Meta ima veliko iskustvo i u umjetnoj inteligenciji i u kibernetičkoj sigurnosti. Meta nije odgovorila na zahtjev za komentar za taj članak, ali je u ponedjeljak glasnogovornik Mete na X-u rekao da je ranjivost otklonjena.

Slučaj, osim što je neugodan za Metu, pokazuje i temeljne slabosti koje dijele svi AI agenti. Za razliku od klasičnog softvera, agenti mogu odgovoriti fleksibilno i neočekivano na nove okolnosti, zbog čega mogu služiti kao zamjena za ljude u korisničkoj podršci. Istodobno ih je moguće prevariti na načine na koje ljudi ne bi bili, a budući da mogu poduzimati stvarne radnje, takve pogreške imaju posljedice. Somesh Jha, profesor računalnih znanosti na Sveučilištu Wisconsin–Madison, rekao je da bi čovjek u takvoj situaciji pitao zašto se mijenja e-mail adresa i možda postavio sigurnosno pitanje, dok su agenti vrlo skloni dovršiti zadatak. „Gotovo su poput osnovnoškolca koji samo želi ugoditi učitelju”, rekao je.

Stručnjaci navode i nekoliko načina ublažavanja rizika. Tvrtke mogu koristiti klasični softver kako bi izgradile zaštitne slojeve koji agentima nalažu stroga pravila, primjerice da uvijek traže odgovore na sigurnosna pitanja prije slanja osjetljivih podataka o računu na novu e-mail adresu. Također smatraju da bi agenti trebali prolaziti ozbiljan red-teaming, postupak u kojem razvojni timovi namjerno pokušavaju napasti sustav kako bi otkrili njegove slabosti prije puštanja u rad. No postoje i suprotstavljeni pritisci: tvrtke žele raspoređivati sposobne agente, a što agent ima više ovlasti i manje zaštitnih ograda, to više posla može preuzeti. Bo Li, profesorica računalnih znanosti na Sveučilištu Illinois Urbana-Champaign, kaže da sigurnost i korisnost uvijek traže kompromis. Dodaje i da je kvalitetan red-teaming skup te da obrana mora ulagati više resursa od napadača, jer napadaču treba pronaći samo jedan propust, dok obrana pokušava otkriti i zakrpati što više njih. Ako je meta posebno vrijedna, poput jednočlanog Instagram korisničkog imena, napadači će u pronalazak slabosti ulagati dodatne resurse, pa obrana mora potrošiti još više kako bi zaštitila takvu imovinu.

Metaov AI agent i otkrivanje jednostavne ranjivosti pokazali koliko je sigurnost AI sustava složenija od modela Mythos

Vezane vijesti